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内 容 提 要 
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模型 ， 还 提供 了 数据 科学 解决 方案 的 提案 示例 和 评估 指南 。 同 时 ， 为 了 便于 读者 理解 ， 本 书 不 
仅 分 析 了 大 量 商业 示例 ， 在 业务 情景 下 阐释 数据 挖掘 的 基本 概念 和 原理 ， 还 使 用 大 量 图 表 辅 助 
解释 数学 细节 。 因 此 ， 读 者 无 须 专业 数学 背景 即 可 阅读 本 书 。 

本 书 适合 数据 科学 项 目 管理 者 、 数 据 科学 企业 投资 者 、 数 据 科学 项 目的 开发 者 ， 以 及 其 他 
有 志 于 研究 数据 科学 的 人 士 阅读 。 
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“对 于 每 一 个 真诚 拥抱 大 数据 机 遇 的 人 来 说 ， 这 都 是 一 本 必 读 之 书 。 
Craig Vaughan, SAP 全 球 副 总 裁 








“这 本 书 适 时 地 宣告 了 一 个 事实 : 在 现代 社会 中 ， 数 据 即 商业 ， 两 者 无 法 割裂 。 阅 读 这 本 
书 ， 你 将 理解 数据 思维 背后 的 科学 。 








Ron Bekkerman, Carmel Ventures 首席 数据 官 



































“对 于 领导 数据 科学 家 或 与 之 交互 的 商业 管理 者 而 言 ， 如 果 和 希望 略 过 教科 书 中 的 技术 细节 ， 
而 深入 理解 数据 科学 的 原理 和 算法 ， 这 本 书 是 绝 佳 选择 。 


一 一 Ronny Kohavi, Microsoft 在 线 服务 部 架构 师 
































“Provost 和 Fawcett 萃取 当今 现实 世界 数据 分 析 的 艺术 与 科学 之 精华 ， 汇 集成 了 这 本 数据 
领域 无 与 伦比 的 入 门 之 作 。 











一 一 Geoff Webb, Data Mining and Knowledge Discovery 总 编辑 


“我 希望 所 有 与 我 共事 的 人 都 读 过 这 本 书 。 
一 一 Claudia Perlich, Dstillery 首席 科学 家 ，2013 年 广告 研究 基金 会 创新 奖 获得 者 
“这 本 书 是 飞速 发 展 的 大 数据 领域 之 基石 ， 是 所 有 对 大 数据 革命 感 兴趣 之 人 的 必 读 之 物 。 
— Justin Gapper, Teledyne Scientific and Imaging 业务 部 门 分 析 经 理 
“两 名 作者 都 是 在 “数据 科学 ”还 没有 规范 名 称 前 就 颇具 成 就 的 专家 ， 他 们 将 这 个 复杂 的 话 
题 讲 得 浅显 易 懂 ， 这 对 初级 数据 科学 家 尤其 有 益 。 这 本 书 关 注 数据 科学 概念 在 实际 商业 问 


题 中 的 应 用 ， 据 我 所 知 ， 它 是 首 本 涉及 这 一 主题 的 书 。 书 中 大 量 引 用 了 反映 商业 中 常见 问 
题 的 现实 案例 ， 如 用 户 流失 、 目 标 市 场 营 销 ， 甚 至 威 士 总 的 分 析 ， 这 些 案例 极 具 说 服 力 。 
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“这 本 书 独一无二 ， 因 为 它 没有 详解 算法 ， 而 是 帮 读 者 理解 数据 科学 背后 的 基本 概念 ， 最 
重要 的 是 ， 它 指导 读者 如 何 着 手 解决 问题 并 取得 成 功 。 无 论 是 想 综合 了 解数 据 科 学 的 普通 
人 ， 还 是 需要 学 习 基 础 知识 的 初级 数据 科学 家 ， 都 要 读 一 读 这 本 书 。 

一 一 Chris Volinsky, AT&T 实验 室 统计 研究 主管 ，Netflix 百 万 美元 挑战 赛 优胜 组 成 员 








“这 本 书 远 不 止 是 数据 分 析 入 门 书 ， 对 所 有 需要 做 出 数据 驱动 型 决策 的 人 来 说 ， 这 本 书 堪 
称 必 备 指南 。 








一 一 Tom Phillips, Dstillery 首席 执行 官 ，Google 搜索 和 分 析 前 主管 


“ 善 用 数据 已 成 为 提升 行业 竞争 力 的 一 种 强大 力量 。 要 想 在 这 个 数据 驱动 的 环境 中 发 展 ， 
数据 工程 师 、 分 析 师 和 经 理 等 都 必须 理解 其 面临 的 选择 、 设 计 选 项 和 利弊 。 本 书 案 例 有 
趣 、 和 叙述 清晰 ， 不 仅 细致 地 说 明了 “怎么 做 ， 也 解释 了 “为 什么  。 对 于 意图 在 数据 驱动 
系统 的 发 展 和 应 用 中 有 所 作为 的 读者 而 言 ， 这 是 一 本 完美 的 入 门 书 。 


Josh Attenberg, Etsy 数据 科学 负责 人 




















“数据 是 生产 率 增长 、 创 新 以 及 深刻 用 户 洞 见 的 基础 。 善 用 数据 的 能 力 直 到 最 近 才 被 广泛 
视 为 竞争 优势 ， 并 迅速 成 为 在 商业 中 立 于 不 败 之 地 的 筹码 。 两 位 作者 凭借 丰富 的 应 用 经 
验 ， 让 这 本 书 成 为 不 二 之 选 一 一 它 打 开 了 一 扇 可 以 洞悉 竞争 对 手 策略 的 窗户 。 

‘Alan Murray， 连 续 创 业者 ，Coriolis Ventures 合伙 人 



































“这 是 最 好 的 数据 挖掘 书 之 一 ， 让 我 彻底 明白 了 外 汇 中 流动 性 分 析 的 相关 概念 。 书 中 的 例 
子 非 常 恰当 ， 能 帮 你 深入 理解 这 个 主题 。 这 本 书 将 成 为 我 的 常备 参考 书 。 
一 一 Nidhi Kathuria， 苏 格 兰 皇家 银行 外 汇 副 总 裁 








“这 是 一 本 绝 佳 的 、 通 俗 易 懂 的 入 门 读物 ， 它 既 能 帮助 商务 人 士 更 好 地 领会 数据 科学 家 所 
用 的 概念 、 工 具 和 技术 ， 又 能 帮助 数据 科学 家 更 好 地 理解 其 解决 方案 所 应 用 的 商业 背景 。 


Joe McCarthy, Atigeo 分 析 与 数据 科学 主管 





“我 认为 ， 对 于 必须 在 现实 世界 中 应 用 数据 科学 和 大 数据 技术 的 商业 分 析 师 和 管理 者 来 说 ， 

这 本 书 是 掌握 这 些 技术 的 最 佳 选择 。 

Ira Laefsky， 工 程 学 硕士 〈 计 算 机 科学 ) /信息 技术 MBA， 人 机 交互 研究 员 ， 
前 Arthur D. Little 和 数字 设备 公司 高 级 顾问 
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不 同 于 其 他 讲述 数据 科学 的 书 ， 本 书 从 非 数据 科学 人 员 ， 也 就 是 管理 者 、 投 资 者 甚至 工程 
师 等 人 员 的 角度 ， 曾 述 了 数据 科学 这 一 新 兴 行 业 (或 学 科 ) 的 基本 原理 和 基础 理念 ， 而 这 
正 是 本 书 的 惊艳 之 处 。 
作为 一 名 数据 科学 工作 者 ， 身 处 数据 科学 快速 发 展 的 浪潮 之 中 ， 我 近年 来 参与 了 多 家 企业 
的 数据 项 目 。 这 些 企 业 中 虽然 很 少 有 像 阿 里 、 百 度 、 电 信和 那样 的 超大 规模 公司 ， 却 不 乏 经 
营 了 十 几 年 或 信息 化 多 年 的 老牌 企业 ， 而 这 些 企业 希望 利用 积累 多 年 的 经 营 数据 来 实现 精 
细 化 经 营 。 此 外 ， 也 有 很 多 不 同行 业 的 创业 公司 希望 将 大 数据 分 析 和 挖掘 作为 契机 来 “ 援 
开 ” 市 场 。 他 们 (包括 我 自己 ) 最 常 遇 到 的 问题 ， 就 是 难以 正确 地 评估 数据 的 成 本 和 价值 
以 及 恰如其分 地 把 握 数 据 项 目的 路 径 和 节奏 。 当 “商业 智能 ”“ 大 数据 ” 数据 挖掘” “ 数 
据 分 析 ” “智慧 城市 " “智能 运营 “增长 黑客 “机 器 学 习 ”“ 深 度 学 习 ”“ 人工 智 能 ”等 热 
门 词语 轮番 被 媒体 和 业界 追捧 的 时 候 ， 技 术 人 员 关 心 如 何 快速 地 “掌握 ”算法 包 从 而 提高 
薪酬 ， 经 营 者 关注 如 何 搭 上 热点 的 快车 ， 却 很 少 有 人 冷静 地 分 析 这 些 热 点 背后 的 实质 
数据 科学 。2018 年 ， 我 翻译 本 书 之 际 ， 正 值 信息 技术 产业 遭遇 寒流 ， 很 多 创业 公司 (特别 
是 一 些 “ 数 据 ”“ 智 能 ”公司 ) 停 谐 甚至 关闭 ， 大 量 创 投 遇 冷 ， 而 本 书 所 述 的 数据 科学 的 
原理 和 理念 或 许可 以 帮助 我 们 理解 、 反 思 这 些 现象 。 

试 举 两 个 例子 。 一 家 号 称 经 营 “ 能 源 智 能 运 维 ” 的 企业 积累 了 很 多 设备 数据 ， 和 希望 以 此 构 
建 故障 的 预测 算法 ， 进 而 实现 提前 备件 和 维护 的 能 力 。 但 是 ， 我 们 在 评估 这 些 数 据 时 ， 却 
发 现 其 中 并 没有 关于 “故障 ”的 清晰 、 准 确 的 记录 。 于 是 ， 我 们 告知 企业 的 管理 者 他 们 缺 
乏 有 效 标注 数据 (相关 概念 可 以 参见 本 书 第 3 章 )， 希 望 他 们 能 够 改善 数据 积累 流程 ， 也 
就 是 智能 运 维 的 数据 收集 机 制 。 但 是 该 企业 坚持 认为 数据 已 经 足够 多 (实际 上 ， 数 万 台 设 
的 秒 级 数据 ， 量 的 确 很 大 )， 没 有 接受 我 们 的 建议 。 目 前 这 家 企业 已 经 转型 做 施工 了 。 
另 一 个 案例 和 一 家 上 市 公司 与 政府 合作 的 PPP 新 项 目 有 关 。 上 市 公司 打出 大 数据 驱动 的 旗 
号 ， 并 声称 他 们 将 “整合 行业 资源 ， 利 用 数据 为 行业 “ 赋 能 “， 一 时 间 备 受 瞩 目 。 然 而 该 
项 目 有 一 个 最 大 的 问题 : 没有 数据 。 在 项 目 筹建 初期 决策 层 为 了 能 “漂亮 ”地 亮相 ,将 
本 应 用 于 工程 和 数据 团队 的 预算 用 在 了 装修 和 高 价 购买 数据 上 。 因 此 ， 系 统 虽 然 “ 上 线 ” 
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了 ， 但 是 其 中 的 数据 是 “ 死 ” 的 。 正 是 由 于 上 市 公司 没 能 正确 地 评估 数据 的 价值 ， 积 极 寻 
求 数据 路 径 (相关 内 容 参 见 本 书 第 1、2、13 章 及 附录 )， 一 年 之 后 ， 该 项 目 依 然 没 有 稳定 
的 数据 源 。 所 幸 ， 经 过 一 番 人 事 更 迭 ， 两 三 年 后 该 项 目 重 回 起 点 ， 踏 踏实 实地 从 头 开始 运 
营 ， 目 前 已 经 颇具 名 气 。 


本 书 第 3~12 章 虽 然 讲 了 若干 基本 的 数据 科学 方法 ,但 是 视角 颇 为 独特 。 本 书 按照 方法 的 
基本 原理 而 非 功 能 (例如 回归 分 析 、 分 类 分 析 、 聚 类 分 析 、 关 联 分 析 等 经 典 归 类 法 ) 来 归 
类 。 以 我 的 理解 ， 这 是 根据 数据 所 用 含 的 信息 量 进 行 的 分 类 。 书 中 不 仅 很 少 有 公式 ， 甚 至 
一 行 代码 也 没有 出 现 ， 跟 任何 编程 语言 都 无 关 。 这 绝 非 刻意 迎合 非 技术 背景 的 读者 ， 而 是 
因为 曾 述 数据 科学 的 原理 和 理念 本 就 不 需要 任何 代码 ， 少 量 的 公式 只 是 为 了 帮助 读者 了 解 
确实 存在 一 些 确定 的 方法 来 量化 地 表示 那些 看 似 模糊 的 概念 〈 如 信息 量 )。 


书 中 第 13 章 所 述 案例 恰当 地 指出 了 数据 团队 和 经 营 管理 者 之 间 沟 通 的 障碍 所 在 。 作 者 显 
然 也 受过 不 少 “ 委 届 "， 书 中 描述 的 一 些 情景 似曾相识 ， 让 我 在 翻译 过 程 中 哑 然 失 笑 。 但 
是 ， 这 些 障碍 不 能 只 归咎 于 管理 人 员 。 第 7、8、11 章 中 介绍 的 一 些 评估 方法 ， 让 我 能 

多 地 从 经 营 者 和 管理 人 员 的 视角 看 待 数据 问题 ， 因 此 本 书 除了 面向 非 数 据 科学 背景 的 读 
者 ， 也 绝对 适合 数据 人 员 。 它 有 助 于 降低 数据 团队 内 部 沟通 以 及 团队 与 外 部 沟通 的 成 本 ， 
从 而 提升 数据 团队 的 价值 。 


数据 科学 本 身 并 不 是 一 个 非常 新 的 行业 或 学 科 。 早 在 20 世纪 ， 一 些 美国 电影 中 就 出 现 过 
依据 数据 进行 决策 的 桥 段 。 只 不 过 它 在 众多 耀眼 的 近义词 的 喧 露 中 显得 很 普通 。 本 书 讲述 
了 数据 科学 的 原理 和 方法 ， 并 特别 强调 了 CRISP-DM (跨行 业 数据 挖掘 标准 流程 ) Bait 
程 可 以 帮助 数据 项 目 建立 合理 的 路 径 和 里 程 碑 ， 有 效 控制 数据 项 目的 风险 。 同 时 本 书 向 我 
们 传达 了 数 个 有 关 数 据 科学 的 理念 ， 例 如 :“ 数 据 和 数据 分 析 能 力 应 被 视 为 企业 的 资产 而 
非 成 本 ”。 

本 书 的 另 一 位 译 者 ， 管 晨 女 士 ， 是 我 曾经 的 学 生 ， 也 是 我 现在 从 事 数 据 驱 动 运 营 的 同事 ， 
我 们 共同 翻译 了 本 书 的 每 一 章 。 此 外 ， 我 还 要 特别 感谢 王 大 鹏 和 张 国 文 在 本 书 翻译 过 程 中 
提供 的 重要 意见 和 建议 。 两 位 都 曾 上 过 我 的 课 ， 现 在 大 鹏 是 我 的 同事 ， 也 是 数据 挖 气 方 面 
的 专家 ， 而 国文 也 活跃 在 咨询 行业 的 多 个 数字 化 转型 项 目 中 。 

图 灵 公 司 的 图 书 充满 了 科技 气息 ， 是 我 的 最 爱 ， 我 非常 荣幸 有 机 会 参与 到 图 灵 公 司 的 图 书 
出 版 中 。 最 后 ， 特 别 感谢 图 灵 公司 的 编辑 朱 钢 、 岳 新 欣 和 祁 表 以 及 幕后 很 多 我 还 不 知晓 姓 
名 的 编辑 老师 们 ， 他 们 的 辛勤 工作 和 严格 要 求 保障 了 本 书 的 翻译 质量 。 
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2019 #9 月 
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本 书 适合 以 下 几 种 读者 : 

。 准备 与 数据 科学 家 合作 、 管 理 面 向 数据 科学 的 项 目 或 投资 数据 科学 企业 的 商业 人 士 ， 
即将 实施 数据 科学 解决 方案 的 开发 人 员 ， 

。 志向 远大 的 数据 科学 家 。 


本 书 不 讨论 算法 ， 不 能 取代 算法 主题 的 图 书 。 我 们 故意 没有 采用 以 算法 为 中 心 的 方法 ， 是 
因为 我 们 相信 ， 在 从 数据 中 提取 有 用 信息 的 技术 的 背后 ， 存 在 着 一 套 精 简 的 基本 概念 或 原 
理 ， 而 它们 构成 了 许多 著名 的 数据 挖掘 算法 的 基础 。 此 外 ， 它 们 还 支撑 着 以 数据 为 中 心 的 
行业 问题 的 分 析 、 数 据 科学 解决 方案 的 构建 和 评估 ， 以 及 一 般 性 数据 科学 策略 和 提案 的 评 
估 。 因 此 ， 我 们 围绕 这 些 一 般 性 概念 和 原理 而 非 具 体 算法 组 织 了 本 书 内 容 。 当 有 必要 描述 
程序 细节 时 ， 本 书 会 用 文字 和 图 表 相 结合 的 方式 进行 解释 ， 因 为 我 们 认为 这 样 比 列 出 详细 
的 算法 步骤 更 易于 理解 。 

尽管 本 书 不 要 求 读者 有 专业 的 数学 背景 ， 但 本 书 内 容 具 有 一 定 的 技术 性 一 一 本 书 旨 在 让 
读者 深入 理解 数据 科学 ， 而 非 仅 对 其 有 个 大 体 认 识 。 本 书 尽量 少 用 数学 语言 ， 多 做 概念 性 
阐述 。 

业界 同行 评价 说 ， 本 书 是 能 帮助 业务 团队 、 技 术 / 研 发 团队 和 数据 科学 团队 形成 统一 认识 
的 无 价 之 宝 。 这 个 结论 是 从 一 小 部 分 人 身上 得 出 的 ， 而 我 们 想 知 道 本 书 的 适用 范围 到 底 有 
多 广 〈 详 见 第 5 章 )。 我 们 希望 每 位 数据 科学 家 都 能 把 这 本 书 推荐 给 其 开发 团队 或 者 业务 
团队 里 的 同事 ， 并 对 他 们 说 “如 果 你 们 迫切 希望 通过 设计 /实施 顶尖 的 数据 科学 解决 方案 
来 解决 商业 问题 ， 那 么 我 们 必须 对 这 本 书 的 内 容 有 共同 的 理解 ”。 
同行 还 告诉 我 们 ， 这 本 书 还 有 个 意料 之 外 的 作用 : 可 以 用 来 准备 数据 科学 类 职位 的 面试 。 
企业 对 数据 科学 家 的 需求 日 益 增长 ， 相 应 地 ， 越 来 越 多 的 求职 者 自称 是 数据 科学 家 。 每 个 
数据 科学 岗位 的 求职 者 都 需要 理解 本 书 中 呈现 的 基本 原理 。( 业 界 同行 说 ， 他 们 很 惊讶 竞 
然 有 那么 多 人 做 不 到 这 一 点 。 我 们 甚至 半 开 玩笑 地 讨论 ， 是 不 是 紧 接 着 写 一 本 《数据 科学 
求职 者 笔记 》,) 












































































































































xvii 


ME. ye Att: 

学 习 数 据 科 学 的 概念 性 方法 

本 书 介绍 了 数据 科学 中 最 重要 的 基本 概念 。 其 中 一些 概念 直接 体现 在 了 章 名 中 ， 其 他 的 则 

会 在 讨论 过 程 中 自然 而 然 地 呈现 出 来 因此 不 会 被 标注 为 “基本 概念 *")。 这 些 概念 贯穿 束 

个 学 习 过 程 ， 从 构想 问题 到 应 用 数据 科学 方法 ， 再 到 运用 结果 改进 决策 。 同 时 ， 它 们 也 构 

成 了 大量 商业 分 析 方法 与 技术 的 基础 。 

这 些 概念 主要 分 为 以 下 三 种 。 

(1) 关于 数据 科学 如 何 融入 组 织 和 竞争 环境 的 概念 ， 包 括 如 何 吸引 、 组 织 和 培养 数据 科学 
队 ， 如 何 让 数据 科学 转化 为 竞争 优势 ， 以 及 如 何 做 好 数据 科学 项 目 。 

02) 形成 数据 分 析 式 思维 的 一 般 方法 。 它 们 有 助 二 识别 合适 的 数据 ， 选 择 合 适 的 方法 。 这 些 
概念 包括 数据 挖 气 过 程 和 一 系列 不 同 的 高 级 数据 挖掘 任务 ， 


(3) 从 数据 中 获取 信息 的 一 般 性 概念 。 这 些 概念 为 大 量 的 数据 科学 任务 及 其 算法 商定 了 基础 。 


比如 ， 有 一 条 基本 概念 是 如 何 判 定 两 个 由 数据 描述 的 个 体 之 间 的 相似 性 。 这 项 能 力 是 执行 
多 种 具体 任务 的 基础 : 它 可 以 直接 用 于 寻找 与 指定 用 户 相似 的 用 户 ， 它 构成 了 许多 预测 算 
法 的 核心 ， 可 以 用 来 估计 目标 值 ， 如 资源 使 用 量 或 用 户 响应 促销 活动 的 概率 ， 它 还 是 聚 类 
方法 的 基础 ， 即 在 没有 特定 目标 的 情况 下 ， 按 照 个 体 之 间 共 有 的 特征 将 它们 分 组 。 相 似 性 
同样 是 信息 检索 的 基础 ， 可 以 检索 出 一 系列 与 查询 词 条 相关 的 文件 或 网 页 。 最 后 ， 它 也 是 
许多 推荐 算法 的 基础 。 在 传统 的 面向 算法 的 书 中 ， 这 些 任务 可 能 会 以 不 同 的 名 字 分 布 于 不 
同 章 市 ， 其 中 的 共同 点 却 被 掩盖 在 重重 的 算法 与 数学 命题 之 下 。 本 书 关注 的 是 统一 的 概 
念 ， 而 各 个 具体 的 任务 和 算法 就 是 它们 的 自然 呈现 。 


再 举 一 个 例子 ， 在 对 模式 的 效用 进行 评估 时 ， 提 升 度 (lift) 这 一 指标 在 数据 科学 领域 随处 
可 见 。 它 指 的 是 某 一 模式 在 多 大 程度 上 是 由 非 随 机 情况 导致 的 。 它 可 以 用 于 在 不 同 场 景 下 
对 不 同 模式 进行 评估 。 例 如 ， 通 过 计算 目标 人 群 的 提升 度 ， 可 以 评估 定向 广告 算法 。 它 还 
可 以 用 于 判断 结论 的 正 负 证 据 权 重 (WOE)， 以 及 判断 数据 中 的 共 现 情况 是 否 有 意义 ， 不 
同 于 仅 是 高 频 事 件 的 自然 结果 。 

我 们 相信 ， 运 用 这 些 基本 概念 来 解释 数据 科学 ， 不 仅 能 帮助 读者 学 习 ， 还 能 促进 企业 利益 
相关 者 与 数据 科学 家 之 间 的 交流 。 这 种 方式 使 得 双方 语言 共通 ， 从 而 能 更 好 地 理解 彼此 。 
而 概念 共通 又 能 让 各 方 进行 更 深入 的 讨论 ， 从 而 发 现 之 前 可 能 被 忽略 的 关键 问题 。 


写 给 教师 们 


本 书 被 许多 数据 科学 课程 用 作 教 材 ， 而 且 颇 为 成 功 。 本 书 最 初 的 灵感 来 源 于 2005 年 秋 
Æ Foster 在 纽约 大 学 斯 特 恩 商学 院 开 设 的 跨 学 科 数据 科学 课程 。' 尽管 最 初 这 门 课程 是 为 
MBA (工商 管理 硕士 ) 和 MSIS (信息 系统 硕士 ) 开设 的 ， 却 吸引 了 校内 各 个 学 科 的 学 生 。 
这 门 课 最 有 趣 的 地 方 不 是 它 吸 引 了 MBA 和 MSIS 一 一 原本 就 是 为 他 们 开设 的 ， 而 是 它 对 有 
机 器 学 习 和 其 他 技术 类 学 科 背 景 的 学 生 同 样 非 常 有 价值 。 我 们 猜想 ， 部 分 原因 大 概 是 他 们 
的 课程 仅 聚 焦 在 算法 上 ， 缺 失 了 基本 原理 和 其 他 内 容 。 
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TEL: 当然 了 ， 一 本 书 的 每 个 作者 都 认为 自己 做 的 贡献 更 多 。 


























目前 ， 纽 约 大 学 用 这 本 书 来 辅助 众多 与 数据 科学 相关 的 教学 项 目 ， 如 最 初 的 MBA 和 MSIS 
项 目 、 本 科 商 业 分 析 课 程 、 斯 特 恩 商学 院 的 商业 分 析 硕 士 项 目 ， 以 及 纽约 大 学 最 新 的 数据 
科学 硕士 项 目 中 的 数据 科学 入 门 课程 。 此 外 ， 本 书 (出 版 前 ) 已 被 9 个 国家 的 20 余 所 高 
RRA (数目 仍 在 增长 ) ， 用 于 商学 院 、 计 算 机 科学 项 目 和 数据 科学 初级 课程 。 


其 他 技能 及 概念 


除了 数据 科学 的 基本 原理 外 ， 实 干 的 数据 科学 家 还 需要 了 解 和 掌握 许多 其 他 概念 与 技能 ， 
这 些 会 在 第 1 章 和 第 2 章 讲 到 。 


本 书 结构 及 体例 


除了 偶尔 出 现 的 脚注 ， 本 书 还 会 出 现 用 方 框框 起 的 “补充 栏 "。 它 们 本 质 上 是 扩展 了 的 脚 
注 ， 用 于 阔 释 那些 有 趣 、 有 价值 ， 但 作为 脚注 过 长 ， 又 偏离 主题 的 内 容 。 

前 方 有 技术 细节 — 关于 带 星 号 的 小 节 的 说 明 

我 们 把 偶尔 出 现 的 数学 细节 归 入 了 带 星 号 的 选读 小 节 中 。 这 些小 节 的 标题 前 
带 有 星 号 ， 小 节 开 头 还 有 这 样 的 一 段 辅 文 。 这 些小 节 包 含 更 多 的 数学 /技术 细 
节 ， 这 段 文字 就 解释 了 其 目的 。 读 者 在 阅读 本 书 时 ， 即 使 跳 过 这 些 部 分 也 不 会 
影响 阅读 的 连续 性 ， 但 本 书 仍 会 在 一 些 地 方 提醒 读者 该 处 将 介绍 技术 细节 。 













































































本 书 中 如 “(Smith & Jones, 2003) ”这样 的 文本 表示 对 参考 文献 中 一 个 条 目的 引用 (此 处 即 

指 ，Smith 和 Jones 在 2003 年 发 表 的 文章 或 出 版 的 图 书 ) ; “Smith & Jones (2003)” 与 之 

类 似 。 全 书 使 用 的 参考 文献 列 在 正文 后 面 。 

本 书 尽 可 能 少 讲 数学 ， 并 且 在 讲 到 数学 的 时 候 进 行 了 简化 ， 以 免 造 成 困惑 。 针 对 有 技术 背 

景 的 读者 ， 我 们 有 必要 对 简化 方式 稍 作 解 释 。 

(1) 我 们 没有 使 用 教科 书 中 普遍 使 用 的 Sigma (2 ， 连 加 ) 和 Pi (I， 连 乘 ) 符号 ， 而 是 使 
用 了 如 下 带 省 略 号 的 公式 : 


F(X) = mx +w, X 十 十 WA 


FEST AERA SDT, A RTT RE TIL, ASRS EA 2 P TL 符 
号 。 我 们 假定 阅读 这 些 部 分 的 读者 习惯 使 用 这 种 符号 ， 不 会 感到 困惑 。 

(2) 统计 学 图 书 通 常会 在 估计 值 上 加 上 “帽子 ”符号 ， 以 区 分 真实 值 和 其 估计 值 ， 因 此 在 这 
类 书 中 ， 你 往往 会 看 到 实际 概率 表示 为 p， 而 其 估计 值 表示 为 2 。 本 书 几 乎 一 直 讨 论 基 
于 数据 的 估计 值 ， 加 上 帽子 符号 会 让 公式 又 复杂 又 难看 ， 因 此 除非 特别 指出 ， 否 则 这 些 
值 默认 都 是 基于 数据 的 估计 值 。 

(3) 一 些 符号 和 变量 在 上 下 文中 不 言 自明 ， 因 此 我 们 会 在 文中 简化 或 删除 它们 。 比 如 ， 在 用 
数学 语言 讨论 分 类 器 时 ， 技 术 上 讲 ， 本 书 表 示 的 是 基于 特征 向 量 所 进行 的 决策 预测 。 以 
较为 正式 的 方式 表示 ， 就 会 得 到 如 下 公式 : 

hæ = X Age x (一 1)+ 0.7 x X Balance + 60 


















































其 中 ，Age 表示 年 龄 ，Balance 表示 账户 余额 。 但 我 们 把 它 写 得 更 通俗 易 懂 : 
f(x)= Agex(—1)+0.7x Balance + 60 
其 中 , x 是 向 量 ，Age 和 Balance 是 向 量 的 元 素 。 
为 了 尽量 保持 版 式 一 致 ， 本 书 用 等 宽 字 体 (如 sepal_width) 表示 数据 中 的 属性 或 关键 字 。 
比如 ， 在 第 10 Æ, discuss 表示 数据 中 的 一 个 输出 标记 。 
本 书 采 用 了 如 下 排版 约定 。 
。 黑体 字 
表示 新 术语 或 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 
。 等 宽 斜 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 


本 书 中 ， 我 们 在 正文 中 穿插 了 一 些 与 内 容 相 关 的 提示 和 警告 。 根 据 阅读 载体 (AA 
PDF 或 电子 书 ) 的 不 同 ， 它 们 的 呈现 形式 会 不 大 一 样 ， 如 下 所 示 。 














a 








该 图 标 表 示 提 示 或 建议 。 








该 图 标 表示 一 般 注解 。 





该 图 标 表示 警告 或 警示 。 它 比 提示 重要 得 多 ， 且 出 现 得 较 少 。 








示例 的 使 用 


本 书 除了 作为 数据 科学 的 入 门 读物 ， 对 在 日 常 工作 中 进行 探讨 也 颇 有 帮助 。 引 用 本 书 中 的 
示例 来 回答 问题 无 须 获 得 许可 。 我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 
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如 果 你 觉得 自己 对 示例 的 使 用 超出 了 合理 使 用 或 上 述 许可 的 范围 ， 请 通过 permissions@ 
oreilly.com 联系 我 们 。 
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第 1 章 





绪论 : 数据 分 析 式 思维 





力 。 如 今 ， 几 乎 每 个 商业 环节 都 可 以 





不 要 做 渺小 的 梦 ， 因 为 它们 没有 撼动 人 心 的 力量 。 


























应 链 管 理 











、 用 户 行为 、 


一 一 歌德 


在 过 去 的 十 五 年 中 ， 各 企业 在 商业 基础 设施 上 大 量 投 入 ， 因 此 具备 了 更 好 的 数据 收集 能 
收集 数据 ， 有 些 环节 甚至 装备 了 专 供 数据 收集 之 用 的 
设备 ， 比 如 运营 管理 、 生 产 制造 、 供 

















Ff 场 营销 和 工作 流 管理 等 环 











市 。 与 此 同时 ， 外 部 数据 ， 如 市 场 趋 势 、 业 界 新 闻 和 竞争 对 手 的 一 举 一 动 等 ， 可 以 通过 互 
联网 获得 。 在 此 背景 下 ， 人 们 自然 更 有 兴趣 从 丰富 的 数据 中 获取 有 用 的 信息 和 知识 一 一 这 





恰好 就 是 “数据 科学 ”所 特 指 的 领域 


o 


1.1 数据 机 遇 无 处 不 在 


HE 








大 量 的 数据 触手 可 及 时 ， 几 乎 各 行 各 业 的 公司 都 关注 通过 数据 开发 来 获得 竞争 优势 。 过 
去 ， 公 司 可 以 聘用 统计 学 家 、 建 模 工程 师 和 分 析 师 ， 组 队 对 数据 进行 人 工分 析 。 然 而 ， 当 





今 的 数据 量 和 复杂 度 已 远 远 超出 人 工分 析 的 能 力 范围 。 与 此 同时 ， 随 着 计算 机 和 互联 网 的 
普及 以 及 其 算 力 的 增强 ， 履 盖 多 种 数据 集 的 分 析 方法 和 挖掘 算法 不 断 被 开发 出 来 ， 使 得 数 
据 分 析 的 这 度 和 广度 达到 了 前 所 未 有 的 程度 。 这 些 现象 的 集中 出 现 ， 使 得 数据 科学 原理 和 
数据 挖掘 技术 在 商业 领域 的 应 用 变 得 越 来 越 广泛 。 

















数据 挖掘 技术 最 常见 的 应 用 是 在 营销 领域 ， 尤 其 是 在 目标 


的 推荐 系统 中 。 一 般 客户 关系 管理 系 











Se ABA 











场 营销 、 线 上 广告 和 交叉 销售 
居 挖 掘 技术 来 分 析 客 户 行为 ， 以 提高 客户 留 














存 率 和 最 大 化 客户 价值 。 金 融 业 使 用 数据 挖掘 技术 来 进行 信用 评分 和 量化 交易 ， 并 在 运营 


中 用 它 检 测 坎 诈 行为 和 优化 生产 资源 。】 





亚马逊 和 沃尔玛 等 大 型 零售 商 在 其 经 营 的 各 个 环 











市 一 一 从 市 场 营销 到 供应 链 管理 一 一 都 使 用 了 数据 挖掘 技术 。 很 多 公司 由 于 战略 性 地 应 用 











了 数据 科学 ， 因 而 在 市 场 中 几 露 头角 ， 有 的 其 至 变 成 了 数据 挖掘 公司 。 


























本 书 的 首要 目标 是 帮助 读者 从 数据 的 角度 看 待 商业 问题 ， 并 从 原理 上 理解 如 何 从 数据 中 获 
取 有 用 的 信息 和 知识 〈 即 建立 数据 分 析 式 思维 )。 数 据 分 析 式 思维 包含 一 个 基础 架构 和 一 
套 基本 原理 ， 理 解 它们 至 关 重 要 。 诚 然 ， 解 决 某 些 具体 问题 时 ， 人 们 需要 具备 直觉 、 创 
意 、 常 识 以 及 领域 知识 。 但 数据 视角 可 以 提供 一 个 基于 上 述 架 构 和 原理 的 框架 ， 来 系统 地 
































分 析 这 些 问 题 。 这 样 ， 你 在 逐渐 熟悉 这 种 数据 分 析 式 思维 之 后 ， 





就 会 自然 地 培养 出 一 种 直 























觉 ， 懂 得 在 何 处 以 何 种 方式 运用 你 的 创意 和 领域 知识 (这样 的 好 处 显而易见 ， 因 为 宝贵 的 





创意 和 知识 需要 用 在 最 需要 的 地 方 )。 








本 书 的 第 1 章 和 第 2 章 将 详细 讨论 与 数据 科学 和 数据 挖掘 相关 的 多 个 话题 和 技术 。 本 书 
会 频繁 使 用 “数据 科学 ”和 “数据 挖 所 ”这 两 个 术语 ， 两 者 在 很 多 情况 下 是 可 以 混用 的 ， 
不 过 “数据 科学 ”这 个 字眼 在 各 种 以 获 利 为 目的 的 炒作 中 已 经 失去 了 它 本 来 的 意义 。 严 
格 地 说 ,， “数据 科学 ”是 一 套 指导 人 们 从 数据 中 获取 知识 的 基本 原理 ， 而 “数据 挖掘 ” 则 
是 将 这 些 原理 以 具体 技术 的 形式 实现 并 从 数据 中 获取 知识 的 过 程 。 作 为 术语 ， “数据 科 
学 ” 比 传统 意义 上 的 “数据 挖掘 ” 池 盖 的 范围 更 广 ， 而 后 者 则 对 前 者 的 原理 进行 了 最 清晰 























的 曾 释 。 





即使 你 没有 任何 亲自 应 用 数据 科学 的 打算 ， 理 解数 据 科学 也 是 至 关 重 要 的 。 
这 是 因为 数据 分 析 式 思维 可 以 帮助 你 评估 与 数据 挖掘 有 关 的 商业 提案 。 璧 
如 当 你 的 一 位 员工 、 一 位 咨询 师 或 者 一 个 潜在 的 投资 对 象 提 议 通 过 对 数据 





进行 分 析 和 挖掘 来 改善 某 一 商业 环节 时 ， 你 应 该 有 能 


力 系统 地 评估 该 提案 ， 





判断 它 是 否 可 行 。 当 然 ， 这 并 不 意味 着 让 你 判断 它 是 否 一 定 会 成 功 ， 因 为 
“党 试 ”是 数据 挖掘 项 目的 家 常 便 饭 ， 不 成 功 的 风险 总 是 存在 。 但 是 至 少 你 
应 该 有 能 力 发 现 一 个 提案 是 否 存在 明显 的 缺陷 、 不 现实 的 假设 或 者 缺失 的 











mI. 


本 书 将 介绍 大 量 的 数据 科学 基础 原理 ， 同 时 每 一 条 原理 都 会 通过 列举 至 少 一 项 应 用 了 该 原 

















理 的 数据 挖掘 技术 来 解释 。 由 于 每 一 条 原理 都 会 对 应 多 项 技术 ， 

















因此 本 书 把 重点 放 在 原理 








解释 而 非 具 体 技术 应 用 上 。 换 言 之 ， 除 非 对 理解 概念 有 关键 作用 ， 否 则 本 书 不 会 大 费 周章 


地 区 分 “数据 科学 ”和 “数据 挖掘 ”这 两 个 概念 。 
让 我 们 来 看 两 个 通过 分 析 数 据 发 现 预测 性 模式 的 简单 案例 。 


1.2 案例 : KFrances 


2004 年 , 《纽约 时 报 》 刊 登 了 这 样 一 则 报道 ; 





RG Frances 正 快速 穿越 加 勒 比 海 ， 并 将 直击 佛罗里达 洲 东 海岸 地 区 。 当 地 居民 
忙 着 前 往 海 拔 较 高 的 地 方 避 灾 ， 而 远 在 阿肯色 州 本 顿 维尔 市 的 沃尔玛 管理 层 却 把 


这 场 灾 害 视 为 一 个 绝 佳 的 机 会 ， 并 计划 借 此 展示 他 们 最 新 的 数据 驱动 法 宝 


测 技术 。 





预 
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REMUS AT, KRIS A SAE Linda M. Dillman 让 员工 们 根据 数 周 前 飓风 
Charley 袭击 的 影响 设计 并 开发 出 一 套 预 测 系 统 。 依 靠 沃 尔 玛 数据 库 中 数 万 亿 字 
节 的 客户 消费 记录 数据 ，Linda 认为 公司 可 以 “化 被 动 为 主动 ， 预 测 会 发 生 什么 
事 ， 而 不 是 等 着 事情 发 生 ”。( Hays, 2004 ) 


HE, 思考 一 下 ， 为 什么 数据 驱动 型 预测 在 这 种 情况 下 能 够 派 上 用 场 。 它 也 许 能 预测 出 飓 
风 路 线 上 的 居民 会 需要 更 多 的 瓶装 水 。 可 这 太 显 而 易 见 了 吧 ? 即使 不 使 用 数据 科学 ， 我 们 
也 能 知道 。 也 许 它 能 计算 出 由 风 引 起 的 瓶装 水 销售 增 量 ， 进 而 保障 由 风 路 线 上 的 沃尔玛 店 
有 不 多 不 少 的 库存 。 也 许 通 过 挖 据 数 据 ， 可 以 发 现在 飓风 路 线 上 的 沃尔玛 商店 里 ， 某 种 
DVD 脱销 了 。 但 是 有 可 能 在 那 一 周 内 ,该 DVD 在 全 国 所 有 的 沃尔玛 商店 里 都 脱销 了 ， 而 
非 仅 限 于 那些 飓风 经 过 的 沃尔玛 店 。 数 据 驱 动 型 预测 或 许多 少 有 些 作 用 ， 但 是 它 的 应 用 范 
围 很 可 能 比 Linda M. Dillman 最 初 计 划 的 要 更 加 广泛 。 


更 有 价值 的 是 ， 数 据 驱 动 型 预测 可 以 用 来 发 现在 飓风 影响 下 产生 的 隐 含 模式 。 为 了 做 到 这 
一 点 ， 分 析 师 可 能 需要 分 析 沃 尔 玛 在 相似 情况 下 〈 比 如 数 周 前 飓风 Charley 登陆 期 间 ) 的 
海量 数据 ， 从 中 识别 出 当地 不 同 寻 和 常 的 产品 需求 。 通 过 这 样 的 一 些 模式 ， 沃 尔 玛 就 能 在 刚 
风 登 陆 之 前 预测 到 特殊 的 产品 需求 ， 并 迅速 补充 相应 库存 。 

实际 上 ， 这 种 情况 真 的 发 生 了 。《 纽 约 时 报 》 写 道 :“…… 专 家 在 挖掘 数据 之 后 发 现 ， 除 了 
那些 常规 的 应 急 物 资 ， 某 些 特定 商品 的 销量 出 人 意料 地 增加 了 。 我 们 之 前 从 没 想到 ， 刚 
风 到 来 前 ， 草 茯 馅 饼 的 销量 会 涨 到 平时 的 7 倍 ! ”Dillman 在 采访 中 透露 ， 而 且 销 售 冠 军 
居然 是 啤酒 。” | 


1.3 案例 : 预测 用 户 流失 


这 类 数据 分 析 的 效果 如 何 ? 现在 再 来 看 一 个 更 典型 的 商业 案例 ， 并 审视 该 如 何 从 数据 视角 
思考 商业 问题 。 这 个 案例 将 在 本 书 中 反复 出 现 ， 我 们 把 它 作 为 一 个 通用 的 参考 例子 ， 以 便 
更 好 地 阐明 本 书 中 的 一 些 问 题 。 


假设 你 刚 在 美国 最 大 的 一 家 电信 公司 MegaTelCo 找到 一 份 不 错 的 分 析 师 工作 ， 然 而 公司 
目前 正面 临 着 严峻 的 无 线 业务 用 户 流失 问题 。 比 如 在 美国 东海 岸 中 部 ，20% 的 手机 用 户 在 
合约 到 期 后 选择 不 再 续 约 ， 而 获得 新 用 户 却 变 得 越 来 越 艰难 。 由 于 手机 市 场 已 经 饱和 ， 因 
而 曾经 呈 井 喷 式 增长 的 无 线 业务 如 今 也 已 势 微 。 各 家 电信 公司 正在 为 了 争夺 对 方 的 用 户 和 
留存 自己 的 老 用 户 斗 得 头 破 血 流 。 “用户 流失 ”是 指 用 户 未 能 留存 在 一 个 公司 而 转移 至 对 
手 公 司 的 情形 。 这 种 情形 背后 的 代价 是 巨大 的 : 用 户 转 入 的 公司 需要 花 大 价钱 才能 吸引 用 
户 ， 而 失去 用 户 的 公司 也 会 损失 收益 。 


分 析 并 解决 上 述 难 题 ， 就 是 你 需要 做 的 工作 。 因 为 吸引 新 用 户 比 留存 老 用 户 的 成 本 高 得 
多 ， 所 以 大 部 分 预算 应 该 用 于 留存 老 用 户 。 市 场 部 门 已 经 制订 了 一 份 给 留存 用 户 的 优惠 方 
案 ， 你 的 工作 就 是 设计 出 一 份 精确 、 有 具体 的 计划 ， 告 诉 数据 部 门 如 何 依靠 MegaTelCo 庞大 
的 数据 资源 ， 找 出 哪些 用 户 最 应 该 得 到 上 述 优惠 ， 从 而 有 效 地 防止 这 些 用 户 在 合约 到 期 后 
流失 。 




































































































































































注 1: 当然 啦 ， 冰 镇 啤酒 和 草莓 馅 饼 更 配 哦 ! 
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仔细 想 想 : 你 会 用 到 什么 数据 ? 又 该 怎么 运用 这 些 数据 ? 尤其 是 在 留存 用 户 的 奖励 方案 的 
预算 已 经 确定 的 条 件 下 ， 如 何 挑选 一 批 特定 用 户 ， 才 能 使 公司 的 用 户 流失 率 达到 最 低 ? K 
际 上 ， 这 个 问题 比 看 上 去 难得 多 。 这 个 案例 会 在 本 书 中 被 反复 讨论 ， 并 且 ， 随 着 你 对 数据 
科学 的 理解 逐步 加 深 ， 本 书 对 这 个 问题 的 解答 也 会 逐步 深入 。 

现实 中 ， 用 户 留存 是 数据 挖掘 技术 的 主要 应 用 方向 之 一 ， 尤 其 是 在 电信 业 和 


金融 业 。 这 些 行 业 通常 也 是 使 用 数据 挖掘 技术 最 早 和 最 广泛 的 ， 之 后 本 书 会 
讨论 其 原因 。 




















1.4 数据 科学 、 数 据 工程 和 数据 驱动 型 决策 


数据 科学 涉及 从 数据 的 自动 化 分 析 结 果 中 理解 现象 的 原理 、 过 程 和 技巧 。 在 商业 领域 ， 人 
们 最 关注 的 是 如 何 改 进 决策 过 程 ， 这 也 是 数据 科学 的 终极 目标 。 因 此 ， 本 书 将 侧重 于 讲解 


这 一 点 


Imo 


图 1-1 把 数据 科学 置 于 组 织 中 其 他 过 程 之 间 ， 这 些 过 程 与 数据 相关 且 联 系 密切 。 该 图 将 数 
据 科学 同 其 他 在 商业 中 日 渐 受 到 关注 的 数据 处 理 过 程 区 分 开 来 。 让 我 们 从 图 中 的 最 上 部 开 
台 讨论 。 




















数据 驱动 型 决策 
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自动 拟 行 的 数 
据 驱 动 型 决策 


数据 科学 






数据 工程 和 数据 处 理 
(包括 “大 数据 ”技术 ) 


数据 处 理 的 其 他 积极 影响 
(如 更 快 的 事务 处 理 ) 


























数据 驱动 型 决策 (data-driven decision-making, DDD) 指 的 是 基于 数据 分 析 做 出 决策 ， 而 
非 仅 任 直觉。 比如， 一 位 市 场 营 销 人 员 既 可 以 赁 多 年 的 从 业经 验 和 一 双 火 上 腿 金 睛 选 出 最 优 
的 一 支 广 告 ， 也 可 以 通过 分 析 顾 客 对 不 同 广告 的 反应 数据 来 做 决策 ， 还 可 以 把 这 两 种 方法 
结合 起 来 。 运 用 DDD 不 需要 在 完全 依赖 它 和 彻底 不 用 它 之 间 做 选择 ， 不 同 的 公司 可 以 不 
同 程度 地 运用 它 。 

DDD 的 优势 毋庸 置疑 。 经 济 学 家 Erik Brynjolfsson 及 其 在 麻 省 理工 学 院 和 宾夕法尼亚 大 
学 沃 顿 商学 院 的 同事 进行 了 一 项 关于 DDD 如 何 影响 公司 绩效 的 研究 (Brynjolfsson, Hitt & 
Kim, 2011)。 他 们 开发 出 了 一 种 评分 方法 ， 用 于 评估 整个 公司 的 DDD 程度 。 统 计 研 究 表 
明 ， 公 司 DDD 程度 越 高 ， 其 生产 力 就 越 高 即使 在 控制 了 其 他 众多 可 能 的 混淆 因素 后 ， 
结论 也 是 如 此 。 而 且 DDD 的 影响 不 容 小 舰 . 得 分 每 增加 一 个 标准 差 ， 公 司 的 生产 力 就 相 
应 提高 4%~6%。 此 外 ，DDD 不 但 与 资产 收益 率 、 股 本 回报 率 、 资 产 利用 率 和 公司 市 值 正 
相关 ， 而 且 可 能 与 它们 存在 因果 关系 。 


本 书 主要 关注 两 类 决策 : 需要 从 数据 中 找到 “新 发 现 ”的 决策 ， 以 及 将 会 重复 做 出 的 决策 
(特别 是 大 规模 重复 的 决策 )。 这 样 一 来 ， 即 便 数据 分 析 仅 仅 略 微 地 提升 了 决策 的 准确 度 ， 
也 能 使 决策 效果 得 到 很 大 提升 。 前 文 提 到 的 沃尔玛 案例 属于 第 一 类 决策 : Linda M. Dillman 
想 发 现 新 知识 以 帮助 沃尔玛 做 好 准备 ， 应 对 即将 来 临 的 飓风 Frances。 


2012 年 ， 沃 尔 玛 的 竞争 对 手 Target 百货 也 因为 一 次 第 一 类 决策 而 受到 了 媒体 关注 
(Duhigg, 2012), FIAZRAE ERE, Target 关心 顾客 的 消费 习惯 、 消 费 动机 和 影响 顾客 
消费 的 因素 。 顾 客 通常 会 产生 消费 惯性 ， 这 种 惯性 很 难 改变 。 但 是 ，Target 的 决策 者 们 知 
道 ， 当 顾客 们 的 家 庭 迎 来 新 生 儿 时 ， 他 们 的 消费 习惯 就 会 发 生 显著 变化 。Target 的 分 析 师 
说 :“ 只 要 能 让 顾客 从 我 们 这 里 购买 尿 不 湿 ， 他 们 就 会 开始 从 这 儿 买 各 种 其 他 商品 。” 大 部 
分 零售 商 深 诸 此 道 ， 于 是 他 们 相互 竞争 ， 以 期 把 自己 的 母 婴 用 品 卖 给 新 生 儿 父母 。 由 于 大 
部 分 新 生 儿 记录 是 公开 的 ， 因 此 零售 商会 基于 这 些 信息 针对 新 生 儿 父母 进行 促销 。 


然而 ，Target 想 在 这 场 莞 争 中 快 人 一 步 。 他 们 想 预 测 顾客 是 否 怀孕 了 ， 如 有 果 预 测 成 功 ， 那 
么 他 们 就 可 以 赶 在 竞争 对 手 之 前 给 目标 顾客 发 送 母 婴 用 品 的 促销 信息 。Target 运用 数据 科 
学 技术 分 析 了 准 妈妈 们 被 确认 怀孕 之 前 的 历史 数据 ， 并 提取 出 了 能 够 预测 哪 位 顾客 正在 怀 
孕 的 信息 ， 比 如 ， 准 妈妈 们 往往 会 改变 饮食 习惯 、 穿 衣 风 格 和 维生素 摄 和 方案 等 。 以 上 种 
种 迹象 被 从 历史 数据 中 提取 出 来 ， 整 合成 预测 模型 ， 然 后 应 用 于 市 场 营销 活动 。 随 着 内 容 
的 深入 ， 本 书 会 详细 讨论 预测 模型 。 目 前 你 只 需要 知道 ， 预 测 模型 可 以 将 复杂 的 世界 抽象 
化 、 简 单 化 ， 只 关注 一 系列 与 我 们 所 关心 的 问题 (比如 哪些 顾客 会 流失 、 哪 些 顾 客 会 购 
买 、 哪 些 顾 客 怀孕 了 等 ) 相关 的 因素 。 重 要 的 是 ， 在 沃尔玛 和 Target 的 案例 中 ， 数 据 分 析 
不 是 为 了 验证 某 一 假设 。 相 反 ， 分 析 师 探索 数据 ， 是 为 了 发 现 有 用 的 信息 。” 

前 文 的 用 户 流失 案例 则 属于 第 二 类 决策 。MegaTelCo 有 数 亿 用 户 ， 其 中 的 每 一 个 人 都 有 流 
失 的 风险 。 每 个 月 都 有 数 千 万 的 用 户 合约 到 期 ， 因 此 他 们 当中 的 任何 一 位 在 近期 流失 的 概 
率 都 会 不 断 增加 。 如 果 能 开发 出 更 加 精确 的 估计 方法 ， 可 以 估计 出 挽留 一 位 特定 用 户 所 带 
来 的 收益 ， 那 么 就 可 以 将 其 应 用 到 千 万 级 的 用 户 群 上 ， 从 而 收获 巨额 利润 。 该 思路 同样 适 













































































































































































注 2: Target 的 成 功 案 例 也 引发 了 关于 使 用 数据 科学 技术 的 伦理 问题 的 讨论 。 伦 理 和 隐私 固然 有 趣 且 重要 ， 
但 是 它们 目前 不 在 我 们 的 讨论 范围 之 内 。 
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用 于 其 他 大 量 应 用 数据 科学 和 数据 挖掘 技术 的 领域 ， 如 直接 营销 、 线 上 广告 、 信 用 评估 、 
金融 交易 、 服 务 台 管 理 、 其 诈 检 测 、 检 索 排名 、 产 品 推荐 等 。 


图 1-1 表明 ， 数 据 科学 既 支 撑 着 DDD， 也 与 之 部 分 重合 。 这 指出 了 一 个 往往 被 忽略 的 事 
实 ， 即 企业 越 来 越 多 地 使 用 计算 机 系统 进行 自动 化 决策 。 不 同行 业 使 用 自动 化 决策 的 程度 
不 同 。 金 融 业 和 通信 业 是 较 早 使 用 DDD 的 领域 ， 主 要 原因 是 它们 的 数据 网 络 和 大 规模 计 
算 早已 成 熟 ， 从 而 实现 了 大 规模 的 数据 聚合 和 数据 建 模 ， 以 及 模型 成 果 在 决策 中 的 应 用 。 


20 世纪 90 年 代 ， 自 动 化 决策 给 银行 业 和 消费 信贷 业 带 来 了 巨变 ,银行 和 电信 公司 应 用 大 
规模 系统 来 管理 以 数据 驱动 的 反 欺 诈 决策 。 随 着 零售 业 的 信息 化 程度 越 来 越 高 ， 销 售 决策 
也 越 来 越 自动 化 。 著 名 的 案例 有 Harrah’s 赌场 的 积分 项 目 ， 以 及 亚马逊 和 Netflix 的 自动 推 
荐 系统 。 此 时 ， 广 告 业 正经 历 着 一 场 变 革 ， 这 主要 是 因为 消费 者 上 网 的 时 间 越 来 越 长 ， 以 
及 在 线 系统 瞬间 做 出 广告 决策 的 能 力 得 到 了 极 大 提升 。 


1.5 数据 处 理 和 “大 数据 - 


在 此 有 必要 谈 一 下 另 一 点 : 数据 处 理 过 程 的 许多 方面 并 不 属于 数据 科学 。 这 可 能 和 我 们 从 
媒体 中 得 到 的 印象 有 些 出 和 人。 数据 工程 和 数据 处 理 过 程 都 是 数据 科学 中 至 关 重 要 的 支撑 ， 
但 它们 更 宽泛 。 比 如 ， 当 下 很 多 数据 处 理 技能 、 系 统 和 技术 都 被 误 称 为 数据 科学 。 要 想 正 
确 理解 数据 科学 和 数据 驱动 型 业务 ， 就 必须 先 理解 数据 科学 与 数据 工程 及 数据 处 理 技术 的 
差异 。 数 据 科学 需要 使 用 数据 ， 它 通常 得 益 于 基于 各 种 数据 处 理 技术 的 复杂 的 数据 工程 ， 
但 这 些 技术 本 身 并 不 等 同 于 数据 科学 。 正 如 图 1-1 所 示 ， 这 些 技术 支撑 着 数据 科学 ， 但 除 
此 之 外 ， 它 们 的 用 途 还 有 很 多 。 数 据 处 理 技 术 对 于 许多 面向 数据 但 是 与 知识 获取 或 DDD 
无 关 的 业务 至 关 重 要 ， 例 如 高 效 的 交易 处 理 、 现 代 Web 系统 处 理 和 线 上 广告 营销 管理 等 。 


“大 数据 ”技术 (如 Hadoop、HBase 和 MongoDB) 最 近 深 受 媒体 青睐 。 大 数据 其 实 指 的 
是 大 型 数据 集 ， 因 其 过 于 庞大 而 无 法 使 用 传统 的 数据 处 理 系统 ， 所 以 新 的 处 理 技 术 应 运 而 
生 。 和 传统 技术 一 样 ， 大 数据 技术 的 应 用 领域 也 十 分 广泛 ， 其 中 包括 数据 工程 。 有 时 ， 大 
数据 技术 也 会 被 用 于 实现 数据 挖掘 技术 。 而 图 1-1 表明 ， 大 名 时 瞻 的 大 数据 技术 更 常用 于 
数据 处 理 ， 以 支撑 数据 挖掘 及 其 他 数据 科学 行为 。 

前 文 提 到 ，Brynjolfsson 的 研究 展示 了 DDD 的 优势 ， 而 纽约 大 学 斯 特 因 商学 院 的 经 济 学 
家 Prasanna Tambe 进行 的 另 一 项 研究 ， 则 衡量 了 大 数据 技术 对 公司 的 帮助 程度 (Tambe, 
2012)。 在 控制 了 许多 可 能 的 混淆 因素 后 ， 他 发 现 大 数据 技术 的 应 用 程度 与 显著 的 额外 产 
出 增长 相关 。 具 体 来 说 ， 大 数据 技术 的 应 用 程度 每 增加 一 个 标准 差 ， 公司 的 生产 力 就 提高 
1%~3%; 每 减少 一 个 标准 差 ， 生 产 力 就 降低 1%~3%。 也 就 是 说 ， 对 于 两 家 大 数据 技术 应 
用 程度 分 别处 于 两 个 极端 的 公司 而 言 ， 它 们 的 生产 力 存 在 天 壤 之 别 。 


1.6 ”从 大 数据 1.0 到 大 数据 2.0 


如 果 想 更 好 地 理解 大 数据 技术 的 现状 ， 可 以 类 比 互 联网 技术 在 商业 领域 的 应 用 过 程 。 在 
Web 1.0 时 代 ， 各 企业 想 在 互联 网 世界 占据 一 席 之 地 、 打 造 电 商 业务 和 提升 运营 效率 ， 因 
此 忙 着 采用 基本 的 互联 网 技术 。 我 们 可 以 认为 目前 正 是 大 数据 1.0 时 代 。 各 个 企业 正 为 了 
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支撑 他 们 目前 的 运营 〈 如 提升 效率 ) ， 而 忙 着 获取 大 数据 处 理 能 力 。 

一 且 完 全 吸收 了 Web 1.0 技术 (基础 技术 的 费用 也 在 这 个 过 程 中 降低 了 )， 各 个 企业 就 会 变 
得 目光 长 远 ， 开 始 思考 互联 网 还 能 做 什么 ， 以 及 如 何 利用 它 改 进 他 们 的 工作 。 自 此 ， 我 们 
WET Web 2.0 时 代 : 新 系统 和 新 公司 开始 利用 互联 网 的 交互 性 来 获 益 。 这 种 思维 转变 
带 来 的 变化 无 处 不 在 ， 最 明显 的 现象 就 是 各 种 社交 网 络 功 能 的 合并 ， 以 及 个 人 客户 (和 公 
民 ) 的 意见 变 得 越 来 越 难以 忽视 。 

大 数据 1.0 时 代 之 后 ， 大 数据 2.0 时 代 指 日 可 待 。 一 旦 各 个 公司 能 灵活 处 理 大 量 数据 ， 他 
门 就 会 想 知道 :“ 有 什么 以 前 做 不 到 的 事 我 们 现在 能 做 到 了 ? 有 什么 事 现在 可 以 做 得 比 以 
前 好 了 ? ”这 时 很 可 能 就 是 数据 科学 的 黄金 时 代 。 届 时 ， 本 书 介 绍 的 原理 和 技术 可 能 会 得 
到 更 深 、 更 广泛 的 应 用 。 


值得 一 提 的 是 ， 一 些 走 在 技术 前 治 的 公司 在 Web 1.0 时 代 就 早已 先 于 主流 应 
用 Web 2.0 时 代 的 概念 了 。 亚 马 进 就 是 极 好 的 例子 。 该 公司 早期 就 注重 顾客 
的 意见 ， 并 根据 这 些 意见 进行 产品 评级 和 产品 评价 (甚至 对 产品 评价 进行 评 
级 )。 同 样 ， 可 以 看 到 ， 现 在 已 经 有 一 些 企业 在 应 用 大 数据 2.0 了 。 比 如 ， 亚 
马 逊 这 回 再 一 次 走 在 了 技术 的 前 治 ， 基 于 海量 数据 为 其 顾客 提供 数据 驱动 的 
商品 推荐 。 还 有 很 多 其 他 的 例子 。 线 上 广告 商 不 仅 需要 处 理 体 量 极其 庞大 的 
数据 (每 天 数 十 亿 的 广告 曝光 量 是 常事 )， 还 得 维持 极 高 的 货 流量 (如 实时 
拍卖 系统 往往 几 十 毫秒 之 内 就 会 给 出 结果 )。 我 们 应 该 留意 这 些 行 业 和 其 他 
类 似 的 行业 ， 并 从 中 找 出 大 数据 和 数据 科学 进步 的 迹象 ， 因 为 这 电 

必 将 被 应 用 于 其 他 产业 中 。 
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1.7 ”数据 与 数据 科学 能 力 : 一 种 战略 性 资产 

前 几 节 提出 了 数据 科学 的 一 个 基本 概念 : 从 数据 中 获取 有 用 知识 的 能 力 和 数据 本 身 ， 都 应 
被 视 作 关键 的 战略 性 资产 。 太 多 企业 认为 数据 分 析 主 要 就 是 从 现存 数据 中 发 现价 值 ， 而 往 
往 忽 视 了 企业 自身 是 否 有 足够 的 分 析 能 力 。 而 将 数据 和 分 析 能 力 都 视 作战 略 性 资产 ， 就 能 
清醒 地 认识 到 该 对 它们 投入 多 少 。 我 们 经 常 缺乏 合适 的 数据 来 进行 最 优 决策 ， 或 缺乏 运用 
数据 进行 最 优 决策 的 能 力 ， 或 这 两 种 情况 并 存 。 进 一 步 讲 ， 把 它们 视 作 战略 性 资产 ， 还 能 
让 我 们 明白 一 个 事实 一 一 它们 是 相互 补充 的 。 即 使 是 最 优秀 的 团队 ， 如 果 没 有 合适 的 数 
据 ， 也 难以 取得 有 价值 的 成 果 。 反 过 来 ， 如 有 果 缺 少 优秀 的 数据 科学 团队 ， 再 合适 的 数据 也 
无 法 优化 决策 。 和 其 他 资产 一 样 ， 数 据 与 数据 科学 能 力也 需要 投资 。 组 建 顶尖 的 数据 科学 
团队 虽 不 寻常 ， 却 能 给 决策 带 来 极 大 帮助 。 第 13 章 将 详细 讲述 有 关 数 据 科学 的 战略 思想 。 
接 下 来 这 个 案例 将 说 明 ， 对 如 何 投资 数据 资产 有 清醒 的 认识 ， 往 往 能 带 来 高 回报 。 

小 银行 Signet 在 20 世纪 90 年 代 的 经 典故 事 就 是 一 个 恰当 的 例子 。 早 在 20 世纪 80 年 代 ， 
数据 科学 就 改变 了 消费 信贷 业 。 通 过 对 违约 概率 建 模 ， 这 个 行业 从 个 人 违约 风险 评估 到 大 
规模 和 市 场 占有 率 的 战略 都 发 生 了 变化 。 这 种 变化 还 带 来 了 大 规模 的 伴生 经 济 。 虽 然 现在 
看 起 来 也 许 有 点 奇怪 ， 但 当时 信用 卡 的 收费 标准 基本 上 是 统一 的 ， 其 原因 有 二 : 各 个 企 
业 没有 能 够 处 理 大 规模 差异 化 价格 的 信息 系统 ， 银 行 管理 层 认为 顾客 无 法 接受 价格 歧视 。 
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1990 年 前 后 ， 两 位 有 长 远 战略 眼光 的 人 (Richard Fairbanks 和 Nigel Morris) 意识 到 ， 信 
息 技术 已 经 足够 强大 ， 可 以 让 他 们 〈 通 过 使 用 本 书 提 及 的 一 些 技术 ) 建立 更 精准 的 预测 模 
型 ， 并 提供 差异 化 服务 (比如 现今 的 定价 、 信 贷 限额 、 低 原 利率 余额 代 偿 、 现 金 返 还 、 积 
分 体系 等 )。 可 是 ， 这 两 位 没 能 如 愿 说 服 大 型 银行 聘用 他 们 为 咨询 顾问 ， 也 就 无 从 实验 他 
们 的 想法 。 在 被 所 有 大 型 银行 拒绝 后 ， 他 们 终于 得 到 了 美国 弗吉尼亚 州 一 家 区 域 性 小 型 银 
行 的 青睐 ， 这 便 是 Signet 银行 。 这 家 银行 的 管理 层 相 信 了 他 们 的 理论 ， 认 为 正确 的 做 法 是 
不 仅 要 模拟 违约 概率 ， 还 要 模拟 收益 率 。 这 是 因为 他 们 明白 ， 银 行 的 信用 卡 业务 的 全 部 利 
润 其 实 仅 来 自 于 一 小 部 分 信用 卡 用 户 ， 而 在 其 他 用 户 身上 不 是 不 赚 不 赔 就 是 亏损 。 如 果 他 
们 能 模拟 收益 率 ， 那 么 就 能 为 最 优质 的 用 户 提供 更 优惠 的 政策 ， 从 而 把 他 们 从 大 银行 控 走 。 
然而 ，Signet 银行 在 实施 这 项 策略 时 过 到 了 大 麻烦 。 他 们 没有 合适 的 数据 来 进行 收益 率 建 
模 ， 也 就 无 法 对 不 同 客户 进行 差异 化 定价 。 当 时 哪 家 银行 都 没有 这 样 的 数据 。 由 于 各 家 银 
行 一 直 根 据 一 套 特定 条 款 和 一 个 特定 的 违约 模型 来 发 放 信 用 贷款 ， 因 此 他 们 只 有 能 模拟 他 
们 曾经 提供 过 的 条 款 和 他 们 曾经 发 放 过 贷款 的 客户 ( 即 在 现 有 模型 中 信誉 优良 的 客户 ) 的 
收益 率 的 数据 。 


而 Signet 银行 能 怎么 办 呢 ? 他 们 遵循 了 数据 科学 的 基础 策略 ， 即 不 惜 代 价 地 获取 数据 。 一 
且 把 数据 看 作 一 项 商业 资产 ， 我 们 就 要 考虑 是 否 投资 和 投资 多 少 的 问题 。 在 Signet 银行 的 
案例 中 ， 银 行 只 能 通过 实验 ， 给 客户 提供 不 同 的 信贷 合约 条 款 ， 来 获得 其 收益 率 等 数据 。 
随机 地 给 不 同 客户 提供 不 同 条 款 ， 这 种 做 法 如 果 脱 离 数 据 分 析 的 视角 来 看 会 很 大 一 一 你 很 
可 能 会 亏 钱 ! 没 错 ， 在 这 个 案例 中 ， 亏 掉 的 钱 恰恰 就 是 收集 数据 的 成 本 。 具 有 数据 分 析 
式 思维 的 人 应 该 关注 的 问题 是 ， 这 些 数据 能 否 带 来 符合 预期 的 、 与 对 数据 的 投资 对 等 的 
回报 。 


ABA, Signet 银行 后 来 如 何 了 呢 ? 你 大 概 猜 到 了 ， 因 为 要 收集 数据 ， 所 以 他 们 随机 给 客户 
分 配 条 款 ， 这 导致 坏账 数量 暴涨 。 其 坏账 率 从 以 前 行业 领先 的 2.9% (Bl 2.9% 的 余额 没有 
被 支付 ) WIER 6%。 这 样 的 亏损 持续 了 数 年 。 与 此 同时 ， 数 据 科 学 家 们 致力 于 使 用 
这 些 数 据 来 构建 预测 模型 ， 评 估 其 效果 ， 最 后 将 其 用 于 提升 盒 利 。 因 为 Signet 银行 把 这 些 
亏损 当 作 对 数据 的 投资 ， 所 以 尽管 股东 们 怨声载道 ， 但 是 他 们 坚持 了 下 去 。 最 终 ，Signet 
银行 的 信用 卡 业 务 扭亏 为 蛋 并 获 利 丰 厚 ， 以 至 于 它 最 后 从 银行 的 业务 中 拆 分 了 出 来 。 这 个 
成 绩 至 今 让 整个 消费 信贷 业 相 形 见 绩 。 
Fairbanks 成 为 了 新 公司 的 董事 长 兼 CEO， 而 Morris 成 为 了 总 裁 兼 COO， 他 们 继续 在 业务 
中 实践 数据 科学 的 概念 。 这 些 业务 不 仅 包括 用 户 获取 业务 ， 还 包括 用 户 留存 业务 。 当 一 个 
用 户 打 电 话 来 咨询 优惠 政策 时 ， 以 数据 驱动 的 模型 会 计算 各 种 情形 下 (采取 不 同 的 优惠 政 
策 ， 包 括 维持 现状 时 ) 的 潜在 利润 ， 然 后 客服 代表 会 向 客户 报 出 利润 最 优 的 那个 优惠 政策 。 
你 或 许 没 听 说 过 Signet 这 家 小 银行 ， 却 极 有 可 能 听 说 过 那 家 拆 分 出 来 的 金融 公司 : Capital 
One (第 一 资本 )。Fairbanks 和 Morris 的 新 公司 已 经 成 长 为 业内 最 大 的 一 家 信用 卡 发 行商 ， 
同时 它 还 拥有 业内 最 低 的 坏账 率 。 据 报道 ，2000 年 ， 这 家 银行 进行 了 45 000 项 类 似 的 
“科学 实验 ”。) 
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TE 3: 若 想 了 解 更 多 关于 Capital One 的 故事 , 请 参考 以 下 资料 : Clemons, E. & Thatcher, M. (1998); McNamee, M. 
(2001). 
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我 们 很 难 找到 对 数据 资产 的 价值 进行 了 清晰 量化 的 研究 资料 ， 这 主要 是 因为 一 般 企 业 不 愿 
意 透露 有 关 战 略 性 价值 的 数据 。 但 是 David Martens 和 Foster Provost 在 2011 年 做 的 一 项 
研究 却 是 个 例外 ， 他 们 对 银行 用 户 的 交易 数据 进行 评估 ， 衡 量 了 特定 数据 对 银行 的 优惠 政 
策 决 策 模型 的 改善 程度 。 银 行 基于 数据 建立 了 这 些 模 型 ， 用 来 决策 向 哪些 用 户 推 荐 哪些 产 
品 。 此 项 研究 试验 了 若干 类 型 的 数据 对 预测 模型 的 作用 。 社 会 人 口 学 数据 可 以 赋予 模型 大 
致 区 分 消费 者 类 型 的 基础 能 力 ， 也 可 以 用 来 预测 他 们 更 倾向 于 购买 哪 一 种 产品 ， 但 是 它 也 
只 能 做 到 这 些 。 数 据 量 可 以 不 断 增长 ， 但 其 对 模型 的 贡献 却 有 一 个 上 限 。 然 而 ，( 匿 名 的 ) 
体 消费 者 的 交易 明细 数据 可 以 大 大 改进 模型 。 而 且 这 类 数据 与 模型 效果 的 关系 清晰 且 显 
著 : 数据 量 越 大 ， 预 测 模型 的 表现 越 好 。 而 且 这 个 趋势 在 Martens 和 Provost 的 调研 范围 内 
没有 减退 的 迹象 。 这 给 我 们 一 个 重要 的 启示 : 拥有 较 大 数据 资产 的 银行 跟 拥有 较 小 数据 资 
产 的 竞争 者 相 比 ， 享 有 重要 的 战略 优势 。 如 果 这 个 趋势 可 以 推广 ， 而 且 银 行 有 能 力 进行 复 
杂 的 分 析 ， 那 么 拥有 更 大 数据 资产 的 银行 应 该 能 更 好 地 识别 适合 每 种 产品 的 最 优 客户 ， 最 
终结 果 就 是 银行 产品 的 采用 率 增 加 ， 或 是 客户 获取 成 本 降低 ， 或 两 者 兼 有 。 

把 数据 作为 战略 性 资产 这 一 概念 既 不 仅仅 适用 于 Capital One， 也 不 仅仅 适用 于 银行 业 。 亚 
马 逊 很 早 就 开始 收集 线 上 用 户 消 费 数据 ， 虽 然 付 出 了 巨额 的 成 本 ， 但 是 这 使 用 户 发 现 了 亚 
马 逊 提供 的 排名 和 推荐 的 价值 。 亚 马 进 因此 能 够 更 容易 地 留存 用 户 ， 甚 至 可 以 向 用 户 收取 
一 些 附加 费用 (Brynjolfsson & Smith, 2000) *, Harrah’s 赌场 的 一 项 著名 投资 是 收集 和 挖掘 
赌场 客户 的 数据 ， 这 项 投资 让 它 从 20 世纪 90 年 代 中 期 的 一 个 小 赌场 成 长 为 世界 上 最 大 的 
博彩 公司 (2005 年 收购 了 Caesar’s 娱乐 后 ) mi Facebook 的 巨额 估 值 要 归功 于 其 庞大 且 独 
特 的 数据 集 (Sengupta, 2012) ， 其 中 包括 用 户 的 信息 、 喜 好 和 社交 网 络 的 结构 。 社 交 网 络 
的 结构 对 建立 预测 模型 非常 重要 ， 因 为 它 可 以 有 效 地 帮助 商家 预测 什么 人 会 购买 特定 商品 
(Hill, Provost & Volinsky, 2006) 。 当 然 ， 虽 然 Facebook 拥有 非常 好 的 数据 ， 但 其 是 否 拥有 
合适 的 数据 科学 策略 来 发 挥 这 些 数据 的 作用 就 不 得 而 知 了 。 

随 着 对 数据 挖掘 原理 和 数据 分 析 式 思维 的 探索 ， 本 书 会 进一步 讨论 这 些 成 功 故事 背后 的 基 
本 概念 。 


1.8 数据 分 析 式 思维 


分 析 和 研究 诸如 用 户 流失 这 类 问题 ， 有 助 于 提高 “数据 分 析 式 ”的 问题 处 理 能 力 ， 而 本 书 
的 首要 目标 就 是 提倡 采用 这 种 看 待 问题 的 视角 。 当 面 对 一 个 商业 问题 时 ， 你 应 该 能 够 评估 
数据 是 否 可 以 改善 这 个 问题 以 及 如 何 改 善 这 个 问题 。 我 们 将 探讨 一 系列 基本 概念 和 原理 ， 
来 促进 谨慎 思考 。 同 时 我 们 也 将 开发 出 一 套 框架 ， 以 便于 系统 性 地 组 织 分 析 。 


前 文 提 到 过 ， 即 使 你 从 未 打算 亲自 应 用 数据 科学 ， 鉴 于 数据 科学 如 今 在 商业 策略 中 的 关键 
地 位 ， 理 解 它 也 是 至 关 重 要 的 。 各 个 行业 越 来 越 多 地 受 数据 分 析 驱 动 ， 在 这 种 情况 下 ， 有 
效 地 与 这 些 行业 进行 互动 或 在 这 些 行业 中 进行 互动 的 能 力 ， 将 赋予 你 相当 大 的 专业 优势 。 
理解 基本 概念 和 掌握 用 于 构建 数据 分 析 式 思维 的 框架 ， 不 仅 可 以 提升 你 的 互动 能 力 ， 还 可 
以 帮 你 预见 改善 数据 驱动 型 决策 的 机 会 ， 以 及 洞察 数据 方面 的 竞争 威胁 。 
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注 4: 亚马逊 推出 了 付费 会 员 服务 。 一 一 译 者 注 
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许多 传统 行业 的 公司 正在 通过 开发 新 的 数据 资源 或 者 利用 现存 的 数据 资源 来 获得 竞争 优 
势 。 他 们 组 建 了 数据 科学 团队 ， 利 用 先进 的 技术 来 增加 收入 和 降低 成 本 。 另 外 ， 很 多 新 兴 
企业 正 把 数据 挖掘 技术 当 作 关 键 战略 要 素来 发 展 ， 比 如 Facebook、Twitter 和 其 他 “Digital 
100” 企 业 (Business Insider, 2012) 均 是 由 于 其 业务 所 获取 或 创造 的 数据 资产 而 获得 了 高 
额 估 值 。 管理 者 逐渐 开始 监督 数据 分 析 团 队 和 数据 分 析 项 目 , 市 场 人 员 慢 慢 开 始 理解 和 组 
织 数 据 驱 动 的 市 场 活动 ， 风 险 投 资 者 必须 明智 地 投资 那些 拥有 大 量 数据 资产 的 企业 ， 而 企 
业 策划 人 员 必 须 有 能 力 在 方案 中 利用 数据 。 
再 举 几 个 例子 : 如 果 一 位 咨询 师 给 出 的 提案 是 通过 对 数据 资产 进行 挖掘 来 改善 经 营 状 况 ， 
那么 你 应 该 有 能 力 评定 该 提案 是 否 行 得 通 ， 如 果 你 的 一 个 竞争 对 手 宣布 他 们 有 了 一 家 新 的 
数据 合作 方 ， 那 么 你 应 该 能 够 判断 这 是 否 会 使 你 们 在 战略 上 处 于 劣势 。 假 设 你 在 一 家 风 投 
公司 取得 了 一 个 职位 ， 而 你 的 第 一 个 项 目 就 是 评估 一 家 广告 公司 的 潜在 投资 价值 。 这 家 公 
司 创始 人 非常 令 人 信服 地 提出 ， 他 们 将 通过 收集 特殊 的 数据 实现 巨大 的 价值 ， 并 据 此 要 求 
提高 该 公司 的 估 值 。 这 样 的 要 求 合 理 吗 ? 当 你 理解 了 数据 科学 的 基本 原理 时 ， 就 应 该 有 能 
力 设 计 出 一 连 串 层 层 递 进 的 问题 ， 来 判断 对 方 关于 提高 估 值 的 要 求 是 否 真 的 合理 。 
还 有 一 种 规模 更 小 但 是 更 常见 的 情况 ， 就 是 各 个 业务 部 门 都 面临 着 数据 分 析 任务 。 这 些 业 
务 部 门 的 员工 不 得 不 与 数据 科学 团队 打交道 。 如 果 他 们 对 数据 科学 的 基本 思维 方式 写 无 概 
念 ， 那 么 他 们 了 臣 怕 根 本 就 无 法 理解 业务 细节 。 相 对 于 其 他 技术 类 项 目 ， 这 种 理解 上 的 缺乏 
对 数据 科学 项 目的 破坏 性 要 大 得 多 。 由 于 数据 科学 是 用 来 支撑 更 好 的 决策 的 ， 因 此 数据 科 
学 家 和 业务 方面 的 决策 负责 人 必须 紧密 合作 。 下 一 章 会 详细 讨论 这 一 点 。 如 果 一 家 公司 里 
的 业务 人 员 不 理解 数据 科学 家 的 工作 ， 那 么 这 家 公司 会 处 于 劣势 ， 因 为 他 们 会 浪费 时 间 和 
精力 ， 甚 至 最 终 可 能 会 做 出 错误 的 决策 。 

管理 人 员 需 要 掌握 数据 分 析 式 技能 

和 咨询 公司 麦肯锡 估计 :“ 能 让 企业 从 大 数据 中 获 益 的 相关 人 才 和 短缺。 截止 到 

2018 年 ， 仅 美国 就 短缺 14 万 ~19 万 名 具有 深层 分 析 技 能 的 人 才 ， 以 及 150 

万 名 能 够 基于 大 数据 分 析 结 果 做 出 有 效 决策 的 管理 和 分 析 人 才 。”(Manyika， 

2011) 为 什么 管理 和 分 析 人 才 的 缺口 是 深层 分 析 人 才 的 10 倍 ? 这 当然 不 是 

因为 数据 科学 家 太 难 管理 ， 以 至 于 每 个 科学 家 需要 10 个 管理 人 员 ， 而 是 因 

为 ， 同 一 业务 的 不 同 领域 可 以 使 用 同一 个 数据 科学 团队 来 辅助 决策 ， 提 升 业 

务 水 平 。 但 是 正如 麦肯锡 公司 指出 的 ， 只 有 这 些 不 同 领域 的 管理 人 员 理 解数 

据 科学 的 基本 原理 ， 才 能 真正 实现 业务 水 平 的 提升 。 


1.9 关于 本 书 


本 书 聚 焦 于 数据 科学 和 数据 挖掘 的 基础 知识 ， 圳 括 了 一 系列 用 来 搭建 数据 分 析 式 思维 和 分 
析 方 式 的 原理 、 概 念 以 及 技术 。 有 了 这 些 基 础 知识 ， 无 须 钻 研 大 量具 体 的 数据 挖 气 算 法 ， 
就 可 以 深入 地 理解 数据 科学 的 过 程 与 方法 。 



































































































































注 5: 当然 ， 这 并 非 新 现象 。 亚 马 进 和 谷歌 就 是 公认 的 因数 据 资产 而 拥有 巨大 价值 的 成 部 公司 。 
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介绍 数据 挖掘 算法 和 技术 的 好 书 有 很 多 ， 其 中 既 有 实战 指南 ， 也 有 数学 书 和 统计 学 书 。 与 
它们 不 同 ， 本 书 只 介绍 基本 概念 以 及 如 何 使 用 这 些 概念 来 解决 数据 挖掘 的 相关 问题 。 但 这 
不 意味 着 可 以 忽略 数据 挖掘 技术 ， 因 为 很 多 算法 正 是 基本 概念 的 具体 体现 。 除 了 个 别 几 个 
问题 以 外 ， 本 书 不 会 关注 具体 技术 的 细节 及 它们 的 运作 方式 ， 而 是 尽 可 能 恰到好处 地 解释 
一 下 细节 ， 以 帮助 读者 理解 某 项 技术 的 作用 以 及 它 所 依赖 的 基本 原理 。 


1.10 重新 审视 数据 挖掘 和 数据 科学 


本 书 花 了 大 量 的 篇 幅 介绍 如 何 从 大 量 数据 中 获取 有 用 的 〈 即 重要 且 最 好 是 可 行 的 ) 模式 或 
者 模型 (Fayyad, Piatetsky-Shapiro & Smyth, 1996), ， 以 及 这 种 数据 挖掘 背 后 的 数据 科学 基 
本 原理 。 在 用 户 流失 预测 的 案例 中 ， 我 们 可 以 从 之 前 的 用 户 流失 记录 中 提取 数据 并 获取 有 
用 的 模式 (如 用 户 行为 模式 )， 它 既 有 助 于 预测 将 来 哪些 用 户 更 有 可 能 流失 ， 也 有 助 于 设 
计 出 更 好 的 用 户 服务 。 

本 书 所 介绍 的 数据 科学 的 基本 概念 是 从 很 多 研究 数据 分 析 的 领域 中 总 结 出 来 的 。 尽 管 对 这 
些 概念 的 介绍 将 会 贯穿 本 书 ， 但 是 在 此 会 先 做 一 些 简 单 的 描述 ， 以 给 读者 一 个 大 致 的 感 
觉 。 在 后 续 章 市 会 一 一 详细 阐述 这 些 概 念 。 

基本 概念 : 从 数据 中 获取 有 用 的 知识 来 解决 商业 问题 的 过 程 可 以 系统 地 分 为 若干 有 明确 定 
义 的 环节 。 数据 挖掘 的 交叉 产业 标准 ”[ 简 称 CRISP-DM (CRISP-DM 项 目 ，2000)] 就 
是 这 种 处 理 的 一 个 体现 。 这 种 处 理 方式 可 以 提供 一 个 框架 ， 用 于 组 组 对 数据 分 析 问 题 的 思 
考 。 例 如 ， 在 实践 中 ， 尽 管 我 们 会 反复 遇 到 一 些 所 谓 的 分 析 “ 解 决 方案 *， 然 而 它们 却 不 
是 基于 对 问题 的 谨慎 分 析 或 评估 得 出 的 。 结 构 化 的 分 析 思 维 则 强调 那些 常常 被 低估 的 数据 
辅助 决策 的 方面 ， 同 时 这 种 结构 化 的 思维 也 有 助 于 更 明确 地 区 分 人 类 创造 性 与 高 效 分 析 工 
有 具 的 适用 范围 。 


基本 概念， 信息 技术 可 以 从 海量 数据 中 提取 出 含有 信息 的 、 描 述 目标 实体 的 属性 。 用 户 流 
失 案 例 中 ， 用 户 就 是 目标 实体 ， 而 每 个 用 户 都 可 以 被 车 干 属性 所 描述 ， 比 如 用 户 的 使 用 
量 、 用 户 使 用 客户 服务 的 历史 记录 和 许多 其 他 因素 。 这 些 属性 里 面 ， 有 哪些 会 实质 性 地 千 
诉 我 们 该 客户 在 合约 到 期 时 流失 的 可 能 性 ”每 个 属性 又 包含 多 少 信息 量 ?回答 上 述 问题 的 
过 程 有 时 候 被 称 作 “寻找 与 流失 “相关 ”的 变量 ”( 后 续 会 精确 地 讨论 这 个 概念 )。 对 此 ， 
商业 分 析 师 应 该 做 出 一 些 假设 并 加 以 验证 。 他 既 可 以 使 用 分 析 工具 辅助 完成 这 类 实验 ( 参 
照 2.6 节 的 其 他 分 析 技术 ) 也 可 以 (特别 是 在 大 规模 自动 实验 的 情况 下 ) 应 用 信息 技术 自 
动 发 现 含有 信息 的 属性 。 而且， 在 根据 多 个 属性 来 预测 流失 时 ， 可 以 递归 地 应 用 本 概念 ， 
后 文 会 对 此 进行 介绍 。 

基本 概念 , 如 果 你 过 度 关注 一 组 数据 ， 那 么 你 或 许可 以 从 中 获取 一 些 模式 ， 但 这 些 模式 可 
能 无 法 推广 至 其 他 数据 。 这 被 称 作对 数据 集 的 过 拟 合 。 数 据 挖 气 技 术 的 能 力 非常 强大 ， 因 
而 当 它 被 应 用 于 实际 问题 时 ， 我 们 需要 识别 和 避免 过 拟 合 。 这 是 我 们 需要 掌握 的 最 重要 的 
概念 之 一 。 过 拟 合 ， 以 及 避免 过 拟 合 的 概念 将 贯穿 整个 数据 科学 的 过 程 、 算 法 、 评 估 方 法 
等 方面 。 

基本 概念 ， 阐 述 和 评估 数据 挖掘 的 结论 时 ， 需 要 谦 慎 地 考虑 它 的 使 用 场景 。 如 果 目 标 是 获 
取 可 能 有 用 的 知识 ， 那 么 又 该 如 何 定义 “有 用 ”? 这 个 问题 的 答案 很 大 程度 上 取决 于 它 的 
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应 用 场景 。 以 用 户 流失 管理 的 案例 为 例 ， 究 竟 应 该 如 何 使 用 从 历史 数据 中 获取 的 模式 ? BR 
了 用 户 流失 概率 外 ， 是 否 还 应 该 考虑 用 户 价值 ? 概括 来 说 ， 这 个 模式 是 否 比 其 他 合理 的 模 
式 更 有 助 于 进行 辅助 决策 ?如果 不 使 用 任何 模式 ， 随 机 决策 ， 效 果 会 如 何 ? 如 果 使 用 一 个 
智能 的 预 设 状况 来 替代 ， 效 果 又 如 何 呢 ? 


以 上 四 条 仅 是 将 要 探讨 的 数据 科学 基本 概念 中 的 一 部 分 。 本 书 将 详细 讨论 十 几 条 这 样 的 基 
本 概念 ， 并 大 体 演 示 它 们 如 何 帮助 我 们 构建 数据 分 析 式 思维 以 及 理解 数据 挖掘 技术 、 算 法 
和 数据 科学 的 应 用 。 


1.11 ”数据 科学 :一 门 新 兴 的 实验 性 学 科 


在 继续 之 前 ， 应 该 简要 回顾 一 下 数据 科学 的 工程 应 用 。 撰 写本 书 之 际 ， 人 们 谈论 数据 科学 
时 ， 不 仅 会谈 到 用 于 解读 数据 的 数据 分 析 技 能 和 技术 ， 还 会 提 到 常用 的 数据 科学 工具 。 数 
据 科学 家 的 定义 (以 及 招聘 广告 中 的 职位 描述 ) 中 不 仅 会 明确 专业 领域 ， 还 会 明确 具体 的 
编程 语言 及 工具 。 招 聘 数 据 科学 家 的 广告 中 经 常会 提 及 数据 挖掘 技术 (如 随机 森林 、 支 
持 向 量 机 )、 具 体 的 应 用 领域 (如 推荐 系统 、 广 告 布局 优化 ) 以 及 常用 的 大 数据 处 理 软件 
(如 Hadoop、MongoDB)。 通 常 ， 人 们 很 少 明确 区 分 数据 科学 和 大 型 数据 集 处 理 技术 。 


必须 指出 ， 数 据 科学 和 计算 机 科学 一 样 ， 是 一 个 年 轻 的 领域 。 大 众 刚 刚 开始 特别 地 关注 数 
据 科 学 ， 而 其 基本 原理 也 刚 开始 出 现 。 数 据 科学 如 今 的 状态 可 以 类 比 19 世纪 中 叶 的 化 学 
科学 ， 那 时 候 化 学 理论 和 化 学 基本 原理 日 渐 规范 化 ， 而 这 个 领域 又 是 非常 依赖 实验 的 ， 因 
此 当时 每 位 优秀 的 化 学 家 都 必须 是 一 位 合格 的 实验 室 技 术 员 。 与 之 相似 ， 现 在 一 名 合格 的 
数据 科学 家 也 必须 能 够 熟练 使 用 特定 的 软件 和 工具 。 

总 而 言 之， 本 书 聚 焦 于 科学 而 非 技 术 。 这 里 没有 关于 在 Hadoop 集群 上 执行 大 数据 挖掘 的 
最 佳 实践 指导 ， 甚 至 没有 Hadoop 的 定义 或 学 习 它 的 理由 。" 本 书 聚 焦 于 数据 科学 中 业已 形 
成 的 基本 原理 。10 年 后 ， 占 主导 地 位 的 技术 很 可 能 会 改变 或 进步 ， 而 我 们 现在 对 技术 的 讨 
论 也 会 过 时 ,但 是 ， 鉴 于 基本 原理 现在 仍 与 20 年 前 相同 ， 所 以 它们 在 接 下 来 的 10 年 中 极 
有 可 能 仍然 变化 其 微 。 


1.12 ”小结 


本 书 的 主题 是 如 何 从 大 数据 中 获取 有 用 的 信息 和 知识 ， 以 改善 商业 决策 。 当 今 ， 几 乎 所 有 
行业 部 门 和 业务 单位 都 积累 了 海量 的 数据 ， 而 数据 挖掘 的 机 遇 也 已 经 遍布 各 行 各 业 。 潜 藏 
在 数据 挖掘 技术 庞大 身躯 下 的 ， 是 一 套 更 加 简洁 的 基本 概念 ， 而 这 套 基 本 概念 构成 了 数据 
科学 。 这 些 概念 是 普 适 的 ， 圳 括 了 数据 挖掘 和 商业 分 析 的 大 部 分 精髓 。 

若 想 在 当今 数据 导向 的 商业 环境 中 取得 成 功 ， 就 必须 考虑 如 何 将 数据 科学 的 基本 概念 应 用 
到 具体 的 商业 问题 上 ， 也 就 是 要 进行 数据 分 析 式 的 思考 。 例 如 ， 本 章 提 到 过 ， 数 据 应 该 被 
视 为 一 项 商业 资产 。 一 旦 确立 了 这 个 思考 方向 ， 我 们 就 会 开始 考虑 投资 于 数据 的 必要 性 
(和 力度 )。 因 此 ， 理 解数 据 科学 基本 概念 ， 不 仅 对 数据 科学 家 本 身 至 关 重 要 ， 对 任何 与 数 















































































































































TE 6: Hadoop 是 一 个 应 用 广泛 的 、 高 度 可 并 行 的 开源 计算 框架 ， 是 当今 用 于 处 理 超 过 常规 数据 库 系统 处 理 
能 力 的 大 型 数据 集 的 "大 数据 "技术 之 一 。Hadoop 是 基于 谷歌 提出 的 并 行 处 理 框架 MapReduce 开发 的 。 
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据 科 学 家 共事 的 人 、 聘 用 数据 科学 家 的 人 、 投 资 重 数据 资产 的 人 ， 以 及 各 机 构 中 领导 数据 
分 析 应 用 的 人 同样 至 关 重 要 。 

构建 数据 分 析 式 思维 离 不 开 概 念 性 框架 的 帮助 (本 书 会 通 篇 讨论 后 者 )。 例 如 ， 下 一 章 的 
主题 一 一 从 数据 中 自动 提取 模式 一 一 就 是 一 个 可 分 为 明确 环节 的 流程 。 理 解 这 些 流程 和 环 
市 有 助 于 构建 数据 分 析 式 思维 ,使 之 更 加 系统 化 ， 并 减少 错误 与 遗漏 。 

事实 证 明 ， 数 据 驱动 型 决策 和 大 数据 技术 可 以 显著 提升 经 营业 绩 。 数 据 科学 支撑 着 (有 了 时 
也 执行 ) 数据 驱动 型 决策 ， 同 时 依赖 于 “大 数据 ”存储 和 工程 技术 ， 但 是 数据 科学 的 原理 
是 独立 的 。 本 书 所 讨论 的 数据 科学 原理 与 其 他 重要 的 技术 (如 统计 假设 检验 和 数据 库 查 
询 ， 读 者 可 另 寻 相 关 图 书 和 课程 学 习 ) 既 相 互 区 别 ， 又 相互 补充 。 下 一 章 将 详细 探讨 它们 
的 区 别 。 
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第 2 章 


商业 问题 及 其 数据 科学 解决 方案 





基本 概念 : 一 系列 典型 数据 挖掘 任务 ; 数据 挖 气流 程 ; 有 监督 型 数据 挖 据 与 无 监 
督 型 数据 挖 所 
数据 科学 的 一 条 重要 原则 是 ， 数 据 挖掘 的 流程 可 以 分 解 为 儿 个 通俗 易 懂 的 环节 。 有 些 环节 
涉及 信息 技术 的 应 用 ， 如 数据 中 模式 的 自动 发 现 和 评估 ， 而 有 些 则 主要 依赖 数据 分 析 师 的 
创意 、 常 识 和 商业 知识 。 理 解数 据 挖掘 的 整个 过 程 ， 有 助 于 组 织 数 据 挖 掘 项 目 ， 使 它们 更 
接近 系统 性 的 分 析 ， 而 不 是 凭借 运气 和 个 人 智慧 的 冒险 行为 。 
数据 挖掘 流程 把 从 数据 中 找 出 模式 这 一 任务 分 解 成 了 一 系列 定义 明确 的 子 任务 。 这 种 方式 
对 组 织 对 数据 科学 的 讨论 也 很 有 用 。 本 书 将 会 把 该 过 程 作为 讨论 的 主要 框架 。 本 章 将 介绍 
数据 挖掘 的 整个 过 程 。 但 是 在 此 之 前 ， 需 要 先 讲 一 下 各 类 常见 的 数据 挖掘 任务 ， 这 样 ， 在 
接触 数据 挖掘 的 整个 流程 和 后 续 章 节 中 的 其 他 概念 时 ， 本 书 会 更 加 言 之 有 物 。 
本 章 最 后 会 讨论 一 系列 商业 分 析 主 题 ， 如 数据 库 、 数 据 仓 库 和 统计 学 基础 。 尽 管 这 
不 是 本 书 的 重点 ， 但 它们 也 非常 重要 。 读 者 可 以 参考 其 他 图 书 (这样 的 书 有 很 多 ) 


这 些 主题 。 


2.1 从 商业 问题 到 数据 挖掘 任务 


每 个 数据 驱动 的 商业 决策 问题 都 是 独一无二 的 ， 因 为 其 包含 的 目标 、 愿 望 、 约 束 ， 乃 至 问 
题 中 的 人 物 个 性 都 不 尽 相 同 。 但 和 许多 工程 问题 一 样 ， 归 根 结 底 ， 商 业 问 题 也 可 以 被 分 解 
为 许 许多 多 的 普通 任务 。 与 企业 利益 相关 方 合作 时 ， 数 据 科学 家 往往 会 把 一 个 具体 的 商业 
问题 分 解 成 一 个 个 子 任务 。 将 子 任务 逐一 解决 ， 再 将 其 解决 方案 组 合 起 来 ， 就 构成 了 整个 
问题 的 解决 方案 。 这 些 子 任务 中 ， 有 的 是 该 商业 问题 中 所 特有 的 ， 而 其 他 的 都 是 常见 的 数 
据 挖掘 任务 。 比 如 MegaTelCo 公司 的 电信 用 户 流失 问题 就 是 该 公司 特有 的 ， 因 为 其 中 的 



























































些 主题 
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某 些 细节 必然 和 其 他 电信 公司 的 用 户 流失 问题 不 同 。 然 而 ， 基 于 历史 数据 预测 用 户 在 合约 
到 期 后 不 再 续 约 的 概率 ， 这 一 子 任务 很 可 能 是 所 有 用 户 流失 问题 的 解决 方案 的 一 部 分 。 如 
果 把 MegaTelCo 的 具体 数据 转化 成 特定 格式 (这 个 问题 将 在 下 一 章 曾 述 )， 那 么 这 个 用 户 
流失 概率 的 估计 问题 就 会 转化 成 一 个 非常 常见 的 数据 挖掘 任务 ， 而 无 论 在 理论 方面 还 是 实 
践 方面 ， 我 们 都 非常 了 解 如 何 解决 常见 的 数据 挖掘 任务 。 后 面 的 章节 还 会 提供 数据 科学 杠 
架 ， 以 便于 将 商业 问题 分 解 为 子 任 务 ， 以 及 将 子 任务 的 解决 方案 重新 组 合 。 


数据 科学 中 一 项 至 关 重 要 的 技能 ， 就 是 把 一 个 数据 分 析 问 题 分 解 为 若干 有 现 
成 工具 可 用 的 已 知 任务 。 识 别 出 旧 问题 及 其 解决 方案 ， 不 仅 有 助 于 避免 重复 
劳动 ， 节 约 时 间 和 资源 ， 还 能 让 我 们 专注 于 问题 中 更 有 趣 的 部 分 : 那些 尚未 
自动 化 的 、 仍 旧 依 赖 人 类 的 智慧 和 创意 进行 解决 的 部 分 。 





















































尽管 多 年 来 ， 大 量具 体 的 数据 挖掘 算法 被 开发 了 出 来 ， 然 而 归根 结 底 ， 它 们 都 用 于 解决 几 
类 基础 任务 。 因 此 ， 有 必要 明确 定义 这 几 类 基础 任务 。 接 下 来 的 几 章 里 ， 本 书 会 先 用 两 类 
任务 〈 分 类 和 回归 ) 来 阐明 几 个 基本 概念 。 之 后 ， 本 书 将 使 用 “个 体 ”一 词 指 代 数据 中 的 
实体 ， 如 用 户 或 消费 者 这 样 的 自然 人 ， 或 者 公司 这 样 的 无 生命 实体 。 第 3 章 将 对 这 个 术语 
进行 更 精准 的 解释 。 在 许多 商业 分 析 项 目 中 ， 我 们 往往 想 找 出 描述 个 体 的 变量 与 其 他 变量 
之 间 的 相关 关系 ， 比 如 ， 虽 然 从 历史 数据 中 可 以 知道 哪些 用 户 在 合约 到 期 后 离开 了 公司 ， 
但 我 们 更 想 找 出 哪些 变量 与 用 户 是 否 会 在 近期 流失 真正 相关 。 而 寻找 这 种 相关 关系 正 是 分 
类 任务 和 回归 任务 的 最 典型 例子 。 


(1) 分 类 和 类 概率 估计 可 以 用 于 估计 总 体 中 的 每 个 个 体 在 一 (小 ) 组 类 别 里 到 底 属于 哪 一 
类 。 通 常 这 些 类 都 是 排他 的 。 举 个 分 类 问题 的 例子 : 在 “MegaTelCo 的 所 有 用 户 中 ， 哪 
些 人 可 能 对 促销 活动 做 出 响应 ? ”那么 这 组 类 别 里 就 有 两 个 类 别 ， 即 “会 响应 ”和 “不 


会 响应 ”。 


在 分 类 任务 中 ， 数 据 挖掘 过 程 会 产生 一 个 模型 ， 而 这 个 模型 能 决定 给 定 个 体 被 归 和 人 哪 一 
类 。 与 分 类 密切 相关 的 任务 被 称 为 评分 或 类 概率 估计 。 评 分 模型 在 应 用 于 个 体 时 ， 不 会 
预测 类 别 ， 而 会 输出 表示 该 个 体 属于 各 类 的 概率 的 评分 (或 其 他 量化 可 能 性 的 指标 )。 
在 前 文 的 例子 中 ， 评 分 模型 能 够 对 每 个 用 户 进行 评估 ， 并 输出 他 们 响应 促销 活动 的 概 
率 。 分 类 与 评分 密切 相关 ， 以 后 我 们 会 看 到 ， 这 两 种 任务 实际 上 可 以 相互 转化 。 


DE CCAR EL”) 可 以 用 于 估计 或 预测 每 个 个 体 的 某 个 变量 的 数值 ， 例 如 :“ 某 顾客 对 
这 项 服务 的 使 用 量 是 多 少 ? ”此 例 中 需要 预测 的 变量 是 服务 使 用 量 。 我 们 可 以 利用 总 体 
中 的 其 他 相似 个 体 及 其 历史 数据 来 构建 预测 模型 ， 而 回归 程序 就 能 输出 用 于 估计 给 定 个 
体 的 特定 变量 的 值 的 模型 。 


回归 与 分 类 既 相互 联系 ， 又 相互 区 别 。 通 俗 地 说 ， 分 类 是 在 预测 某 事 是 否 会 发 生 ， 而 回 
归 则 是 在 预测 某 事 有 多 大 可 能 发 生 。 这 种 区 别 将 随 着 学 习 的 深入 逐渐 明晰 。 


(3) 相似 性 匹配 可 以 基于 已 知 数据 识别 出 相似 的 个 体 。 它 可 以 直接 用 于 找 出 相似 的 实体 。 例 
如 ，IBM 想 找 出 与 其 最 佳 客户 相似 的 企业 ， 以 便 将 销售 资源 尽 可 能 多 地 配置 在 它们 身 
上 。 于 是 他 们 基于 “企业 造影 ”数据 一 一 描述 企业 特点 的 数据 一 一 来 进行 相似 性 匹配 。 
相似 性 匹配 是 一 种 常用 的 商品 购买 推荐 (依据 人 们 在 产品 方面 的 喜好 或 购买 记录 ， 来 寻 
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找 与 你 相似 的 人 ) 








方法 的 实现 基础 。 度 量 相似 性 也 是 解决 其 他 数据 挖掘 任务 的 基础 ， 如 








DAR, ARRAS. SS 6 章 将 详细 讲解 相似 性 及 其 用 途 。 


(4) 聚 类 可 以 用 于 在 没有 具体 目标 的 情况 下 ， 根 据 相似 性 将 个 体 归 为 若干 组 。 例 如 :“ 客 户 
是 聚集 成 自然 组 群 还 是 被 划分 成 了 不 同 部 分 ? ” 聚 类 在 初步 的 领域 探索 中 非常 有 用 ， 它 
可 以 找 出 可 能 存在 的 自然 组 群 ， 而 这 些 群 组 会 给 下 一 步 的 数据 挖掘 任务 和 方法 提供 线 
索 。 聚 类 还 能 作为 信息 输入 到 某 些 决策 过 程 中 ， 以 帮助 回答 “应 该 提供 或 开发 哪些 产 
品 ”“ 客 户 服务 团队 (或 销售 团队 ) 应 如 何 构建 ”等 问题 。 第 6 章 将 深入 探讨 聚 类 。 


(5) 共 现 分 组 〈 又 名 频繁 项 集 挖 据 、 关 联 规则 发 现 和 购物 篮 分 析 ) 可 以 用 于 根据 交易 记录 找 








出 个 体 之 间 的 关联 。 例 如 ; 顾客 往往 会 同时 购买 哪些 商品 ? 聚 类 方法 根据 对 象 的 属性 寻 



































找 对 象 间 的 相似 性 ， 而 共 现 分 组 则 根据 对 象 是 否 在 交易 中 同时 出 现 来 判断 其 相似 性 。 比 
如 ， 在 分 析 超 市 的 销售 记录 后 ， 你 可 能 会 发 现 人 们 同时 购买 碎 肉 和 辣椒 效 的 频率 高 得 出 
人 意料 。 尽 管 利用 这 样 的 发 现 也 许 需 要 一 些 创造 力 ， 但 是 一 般 情况 下 ， 可 以 据 此 推出 促 
销 活动 、 改 变 商 品 摆 放 方式 或 进行 搭配 销售 。 把 常常 同时 卖 出 的 商品 分 在 同一 组 ， 是 一 


种 常见 的 分 组 方式 ， 它 也 被 称 为 “购物 篮 分 析 "。 某 些 推荐 系统 也 会 通过 找 出 哪 两 本 书 




















常常 被 人 一 起 购买 (CKT X 的 人 往往 也 买 Y”) 来 进行 类 同 分 组 。 
共 现 分 组 的 结果 是 对 共同 出 现 的 个 体 的 描述 ， 其 中 包括 对 它们 共 现 频率 的 统计 ， 以 及 这 





种 频率 是 否 有 显著 意义 。， 








(0) 画 像 分 析 〈 又 名 行为 描述 ) 可 以 用 于 描绘 个 体 、 群 组 或 总 体 的 典型 行为 特征 。 例 如 : 
“被 划分 出 的 某 组 用 户 典 型 的 手机 使 用 量 是 多 少 ? ”描述 行为 并 不 是 一 件 简单 的 事情 。 
要 对 手机 使 用 量 进行 画像 分 析 ， 就 需要 分 别 对 夜间 和 有 周末 的 平均 通话 时 长 、 国 际 通话 使 














用 数据 、 漫 游 收费 数据 、 短 信使 用 数据 等 进行 复杂 的 描述 。 我 们 既 可 以 对 整个 总 体 的 行 


为 进行 泛泛 的 描述 ， 也 可 以 具体 地 对 小 型 群 组 甚至 个 体 进行 分 析 。 








画像 分 析 常 用 于 为 异常 检测 建立 行为 标准 。 其 具体 应 用 有 欺诈 检测 和 计算 机 系统 入 侵 监 
控 (比如 当 你 的 iTunes 账户 被 黑 的 时 候 ) 。 举 个 例子 ， 如 果 知 道 某 用 户 平时 用 信用 卡 消 
费 的 习惯 ， 就 能 判断 卡 上 茶 笔 新 消费 是 否 符合 该 用 户 的 画像 。 我 们 可 以 把 “ 错 配 程度 ” 
转化 为 “可 疑 得 分 ”"， 若 分 数 太 高 ， 就 要 向 顾客 发 出 警告 。 


(7) 链 路 预测 可 以 用 于 预测 数据 项 之 间 的 联系 ， 其 方法 通常 是 ， 假 定 某 链 路 存在 并 估计 该 链 
路 的 强度 。 链 路 预测 在 社交 网 络 中 非常 常用 ， 例 如 :“ 您 和 Karen 有 10 名 共同 好 友 ， 您 
是 否 愿 意 把 Karen 加 为 好 友 ? ” 链 路 预测 还 能 用 于 估计 链 路 的 强度 ， 比 如 ， 在 向 用 户 推 
荐 电影 时 ， 可 以 构造 一 张 链 路 图 来 描述 用 户 和 他 们 看 过 或 评价 过 的 电影 之 间 的 联系 。 从 
这 张 图 中 ， 可 以 找 出 用 户 和 电影 之 间 那 些 并 不 存在 ， 但 经 过 预测 应 该 存在 且 强 度 很 大 的 
链 路 ， 而 这 些 链 路 就 构成 了 电影 推荐 的 基础 。 

(8) 数据 整理 是 将 大 数据 集 转化 为 保留 了 重要 信息 的 较 小 数据 集 的 过 程 。 小 数据 集 处 理 起 来 更 
简便 ， 而 且 从 中 获取 信息 可 能 更 为 容易 。 比 如 ， 一 个 庞大 的 消费 者 观 影 偏好 数据 集 可 以 被 
整理 成 较 小 的 、 能 体现 数据 中 隐 含 的 消费 者 偏好 (如 观 影 者 对 电影 题材 的 偏好 ) 的 数据 






















































































SR. PR BCT 








通常 会 造成 部 分 信息 的 流失 ， 但 重要 的 是 它 提升 了 我 们 对 数据 的 洞察 。 

















TE 1: 某 些 共 现 个 体 组 合并 不 出 人 意料 ， 比 如 瓶装 水 可 能 总 和 其 他 商品 同时 出 现在 购物 复 里 ， 因 此 它 跟 某 种 
其 他 商品 的 共 现 组 就 没有 显著 意义 。 一 一 译 者 注 
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(9) 因果 模型 能 帮助 我 们 理解 哪些 事件 或 行为 对 其 他 事件 产 成 了 实质 性 的 影响 。 例 如 ， 假 设 
我 们 用 预测 模型 进行 精准 广告 投放 后 ， 发 现 目 标 用 户 在 广告 触 达 后 的 购买 率 的 确 比 之 前 
更 高 ， 但 这 是 因为 广告 确实 影响 了 用 户 的 行为 ， 还 是 因为 预测 模型 选择 了 本 来 就 有 购买 
计划 的 那些 用 户 ? 因果 模型 的 技术 涉及 对 数据 的 大 量 投入 一 一 如 随机 对 照 试 验 (比如 所 
谓 的 “A/B 测试 ") 一 一 和 根据 观测 数据 得 出 因果 结论 的 复杂 方法 。 因 果 模 型 的 实验 方 
法 和 观测 方法 通常 可 被 视 为 “ 反 事 实 ” 分 析 : 它们 研究 在 互 斥 条 件 下 ， 目 标 事件 (如 精 
准 广告 触 达 特定 个 体 ) 发 生 和 不 发 生 两 种 情形 之 间 的 区 别 。 
无 论 何 时 ， 细 心 的 数据 科学 家 都 应 在 因果 模型 的 结论 中 明确 该 结论 所 依据 的 假设 (这样 
的 假设 一 定 存 在 )。 在 进行 因果 模型 分 析 时 ， 需 要 根据 商务 需求 来 权衡 是 增加 对 数据 投 
入 以 减少 对 假设 的 依赖 ， 还 是 在 当前 假设 下 接受 分 析 结 论 。 即 使 是 在 最 严谨 的 随机 对 照 
试验 中 ， 为 了 防止 因果 分 析 结 论 无 效 ， 也 必须 做 假设 。 众 所 周知 ， 医 药 研究 中 的 “安慰 
剂 效应 ”之 所 以 被 发 现 ， 就 是 因为 在 精心 设计 的 医药 随机 对 照 试 验 中 ， 研 究 人 员 忽 略 某 
些 假 设 条 件 而 导致 试验 结论 无 效 。” 

如 果 要 详细 讨论 以 上 所 有 的 数据 挖掘 任务 ， 那 么 就 要 写 好 几 本 书 了 。 因 此 ， 本 书 只 展示 数 

据 科学 最 基础 的 一 些 原理 ， 而 这 些 原理 共同 构成 了 上 述 所 有 任务 的 基础 。 本 书 将 主要 使 用 

分 类 、 回 归 、 相 似 匹配 和 聚 类 等 任务 来 阐明 这 些 原理 ， 在 需要 时 也 会 讨论 其 他 有 助 于 理解 

基础 原理 的 任务 (直至 本 书 结尾 )。 

请 思考 一 下 : 解决 用 户 流失 预测 问题 需要 使 用 以 上 任务 中 的 哪儿 种 ?在 实践 中 ， 流 失 预 测 

通常 会 被 转化 为 通过 划分 用 户 ， 找 出 哪 部 分 用 户 更 可 能 离开 公司 的 问题 。 这 个 问题 似乎 可 

以 使 用 分 类 任务 、 聚 类 任务 甚至 回归 任务 来 解决 。 然 而 哪 一 个 才 是 最 佳 选择 呢 ? 要 回答 这 

个 问题 ， 首 先 需要 了 解 一 下 它们 的 区 别 。 


2.2 有 监督 方法 与 无 监督 方法 


请 思考 下 面 两 个 相似 的 、 有 关 用 户 群 的 问题 。 第 一 个 问题 是 :“ 用 户 是 否 能 自然 地 分 成 不 
同 群 组 ? ”这 个 分 组 任务 并 没有 任何 明确 的 目标 或 目的 ， 而 这 种 没有 目标 的 数据 挖掘 问题 
就 被 称 为 无 监督 的 数据 挖掘 问题 。 另 一 个 非常 相似 的 问题 是 :“ 能 否 找到 在 合约 到 期 后 极 
有 可 能 不 续 约 的 那 群 用 户 ? ”此 处 出 现 了 特定 目标 : 客户 在 合约 到 期 后 会 不 会 续 约 ? 在 此 
问题 中 ， 我 们 是 出 于 “基于 流失 概率 而 采取 行动 ”这 一 原因 进行 分 类 ， 这 被 称 为 有 监督 的 
数据 挖掘 问题 。 

术语 解释 : 有 监督 学 习 和 无 监督 学 习 

“有 监督 ”和 “无 监督 ”这 两 个 术语 来 源 于 机 器 学 习 领 域 。 打 个 比方 : 在 有 
监督 学 习 的 情况 下 ， 老 师 通 过 提供 目标 信息 和 一 系列 示例 来 “监督 ”学 员 学 
As; 无 监督 学 习 尽 管 可 能 会 涉及 相同 的 示例 集 ， 但 不 会 有 人 提供 目标 信息 ， 

学 员 不 知道 学 习 目 标 ， 因 而 需要 自己 通过 总 结 示 例 的 共同 特征 得 出 结论 。 





































































































































































































注 2:“ 安 慰 剂 效应 ” 指 病 人 虽 未 获得 有 效 治疗 ， 却 因 “ 相 信 ” 治 疗 有 效 ， 而 让 症状 得 到 舒缓 的 现象 。 
一 译 者 注 
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以 上 两 个 问题 的 差别 虽然 细微 却 极其 重要 。 如 果 给 出 了 确定 的 目标 ， 那 就 是 有 监督 的 问 
题 。 有 监督 型 数据 挖掘 任务 所 需 的 技术 不 同 于 无 监督 型 数据 挖掘 任务 ， 但 其 结论 往往 更 为 
有 用 。 有 监督 型 数据 挖 气 任 务 会 给 定 一 个 分 类 目标 ， 即 预测 目标 的 类 别 。 而 像 聚 类 这 种 无 
监督 的 任务 则 根据 相似 性 对 个 体 进行 分 组 ， 然 而 它 无 法 保证 这 种 相似 性 有 意义 或 能 用 于 任 
可 具体 目的 。 


有 监督 型 数据 挖掘 在 技术 上 还 要 求 一 个 必要 条 件 : 必须 有 目标 数据 。 这 里 的 目标 不 能 仅 在 
理论 上 存在 ， 还 必须 实 实在 在 地 存在 于 数据 中 。 例 如 ， 你 可 能 需要 知道 某 个 特定 用 户 是 否 
会 在 至 少 6 个 月 内 继续 留存 ， 但 如 果 这 种 留存 信息 在 历史 数据 中 缺失 或 不 完整 〈 比 如 只 
两 个 月 的 留存 数据 ) ， 你 就 无 法 达到 目的 。 获 取 目 标 数据 往往 是 数据 科学 投资 的 重点 。 个 
体 目 标 变量 的 值 通常 被 称 作 个 体 的 标签 ， 意 在 强调 在 标注 数据 时 往往 (并 非 总 是 ) 会 产生 
费用 。 
分 类 模型 、 回 归 模 型 和 因果 模型 通常 用 有 监督 方法 构建 ， 相 似 匹 配 、 链 路 预测 和 数据 整理 
采用 两 种 方法 皆 可 ;， 聚 类 、 共 现 分 组 和 画像 分 析 则 通常 用 无 监督 方法 解决 。 这 些 分 析 方 法 
的 基础 就 是 我 们 要 展开 讨论 的 数据 科学 的 基本 原理 。 
回归 与 分 类 是 两 类 有 监督 型 数据 挖掘 方法 ， 两 者 的 区 别 在 于 目标 变量 的 类 型 不 同 。 回 归 的 
目标 变量 是 数值 型 ， 而 分 类 的 目标 变量 则 是 类 别 型 (通常 是 二 元 型 ， 即 0-1 类 型 ) PUL 
个 问题 很 相似 ， 它 们 均 需 要 采用 有 监督 型 数据 挖掘 方法 来 处 理 。 
“得 到 激励 I 的 顾客 会 购买 服务 S1 吗 ?” 

这 是 一 个 分 类 问题 ， 因 为 其 目标 变量 是 二 元 的 ( 顾客 买 或 不 买 )。 
“得 到 激励 I 的 顾客 会 购买 哪 种 服务 组 合 (S1、S2 还 是 都 不 买 ) ? ” 

这 是 一 个 含有 三 元 目标 变量 的 分 类 问题 。 
“该 顾客 使 用 该 项 服务 的 程度 有 多 大 ? ” 

这 是 一 个 回归 问题 ， 因 为 其 目标 变量 是 数值 型 ， 即 每 位 顾客 的 服务 使 用 量 

( 实际 值 或 预测 值 )。 


上 述 问 题 有 儿 处 细 市 需要 注意 。 在 实际 的 商业 应 用 中 ， 我 们 往往 更 想得到 预测 数值 而 非 类 
别 。 例 如 ， 在 用 户 流失 示例 中 ， 关 于 用 户 是 否 会 继续 订购 服务 的 结论 可 能 并 不 足以 满足 需 
求 ， 我 们 想 要 的 是 用 户 续 约 的 概率 。 但 这 仍 是 一 个 分 类 问题 而 非 回归 问题 ， 因 为 其 中 的 目 
标 变 量 是 类 别 型 。 为 了 避免 混淆 ， 我 们 称 之 为 “类 概率 估计 ”。 

在 数据 挖掘 流程 的 初始 环 市 ， 重 点 是 判断 首要 的 分 析 方法 是 有 监督 的 还 是 无 监督 的 。 如 果 
是 有 监督 的 ， 那 就 需要 给 予 目标 变量 精准 的 定义 。 该 目标 变量 必须 是 具体 的 量 ， 它 会 成 为 
数据 挖掘 的 焦点 ， 其 取 值 可 以 从 示例 数据 中 获得 。 第 3 章 将 再 度 讨 论 这 个 问题 。 


2.3 ”数据 挖 据 及 其 结果 


在 数据 挖 气 中， 发 现 模式 并 建立 模型 与 使 用 数据 挖 所 结果 之 间 的 区 别 也 很 重要 。 在 学 习 数 
据 科 学 时 ， 学 生 常常 会 混淆 两 者 ， 在 讨论 数据 分 析 时 ， 管 理 人 员 有 时 也 会 分 不 清 两 者 。 如 
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PEA DEH ACS ASS SM AS BS EAS Ey, EEE: 这 两 者 是 截然 不 
同 的 。 

请 回想 用 户 流失 示例 的 应 用 场景 。 我 们 想 用 模型 预测 哪些 用 户 会 流失 。 假 设 已 经 通过 挖掘 
数据 建立 了 类 概率 的 预测 模型 M， 那 么 输入 某 个 现 有 用 户 的 一 系列 属性 后 ， 模 型 M 将 输 
出 该 用 户 流失 的 分 数 或 概率 。 这 就 是 数据 挖掘 结果 的 使 用 ， 而 数据 挖掘 往往 是 通过 其 他 历 
史 数 据 得 到 模型 M 的 。 

图 2-1 展现 了 以 上 两 个 环节 。 数 据 挖掘 产生 概率 估计 模型 (如 上 半幅 图 所 示 )， 该 模型 随即 
被 应 用 到 另 一 个 未 知 的 示例 上 ， 并 输出 估计 概率 〈 即 模型 使 用 环节 ， 如 下 半幅 图 所 示 )。 
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新 数据 项 的 类 未 知 
(例如 ， 用 户 会 接受 吗 ? ) 









































图 2-1: 挖掘 数据 与 使 用 数据 挖掘 结果 的 区 别 。 上 半幅 图 展现 的 是 通过 挖掘 历史 数据 得 到 模型 的 过 程 。 
注意 ， 历 史 数 据 是 明确 标注 了 目标 值 (类别 ) 的 。 下 半幅 图 展现 的 是 数据 挖掘 结果 的 应 用 ， 
即 把 模型 应 用 于 类 别 未 知 的 新 数据 。 模 型 最 终 预测 了 类 别 以 及 该 类 别 的 概率 


2.4 数据 挖掘 流程 


数据 挖掘 是 一 门 手 艺 。 它 涉及 大 量 科 学 与 技术 的 应 用 ， 而 如 何 恰 当地 应 用 这 些 科 学 与 技术 
也 是 一 门 艺术 。 但 如 同 其 他 成 熟 的 手艺 一 样 ， 数 据 挖 掘 也 有 一 套 易于 理解 的 流程 ， 可 以 将 
问题 解构 ， 并 保证 合理 的 一 致 性、 可 重复 性 和 客观 性 。 跨 行业 数据 挖掘 标准 流程 (CRISP- 
DM; Shearer, 2000) 对 该 流程 进行 了 整理 ， 如 图 2-2 所 示 。; 





















































注 3: 你 也 可 以 访问 CRISP-DM 流程 模型 的 维基 百科 页 面 。 
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2-2; CRISP-DM 数据 挖掘 流程 


图 2-2 明确 了 这 个 事实 : 循环 迭代 是 数据 挖掘 流程 的 常态 。 通 常 ， 循 环 迭 代 一 轮 没 能 解 
决 问 题 并 不 意味 着 失败 。 整 个 数据 挖掘 疲 程 往往 是 探索 数据 的 过 程 。 在 第 一 轮 友 代 之 后 ， 
数据 科学 团队 会 对 数据 更 加 了 解 ， 在 下 次 迭代 时 会 更 有 方向 性 。 下 面 详细 讨论 这 些 步 又 。 


2.4.1 业务 理解 环节 


在 初始 环节 ， 理 解 要 解决 的 问题 至 关 重 要 。 虽 然 这 似乎 显而易见 ， 但 是 实际 上 商业 项 目 很 
少 会 像 数据 挖掘 问题 那样 清晰 明确 。 因 此 ， 在 探寻 结果 的 过 程 中 ， 需 要 反复 重 塑 问题 和 设 
计 解 决 方案 。 如 图 2-2 所 示 ， 该 过 程 不 是 一 个 简单 的 线性 过 程 ， 而 是 一 个 嵌 套 在 循环 中 的 
循环 。 因 为 最 初 的 构想 可 能 是 不 完整 的 或 不 是 最 优 的 ， 所 以 吞 要 得 到 满意 的 解决 方案 ， 就 
需要 进行 多 次 循环 。 

在 业务 理解 环节 ， 分 析 师 需要 发 挥 创造 力 。 正 如 接 下 来 将 会 讲 到 的 ， 数 据 科学 固然 重要 ， 
但 成 功 的 关键 往往 是 商业 分 析 师 如 何 发 挥 创造 力 ， 将 商业 问题 分 解 成 一 个 或 多 个 数据 科学 
问题 。 充 分 掌握 基础 知识 有 助 于 分 析 师 构思 新 颖 的 方案 。 









































在 解决 特定 的 数据 挖掘 问题 时 ， 有 多 种 工具 可 供 使 用 ， 详 见 2.1 节 。 通 常 在 前 期 我 们 会 依 
据 这 些 工 具 各 自 的 优势 来 设计 解决 方案 ， 也 就 是 说 ， 把 问题 分 解 为 若干 个 分 类 任务 、 回 归 
任务 和 概率 估计 任务 的 建 模 问题 。 

在 第 一 个 环节 ， 方 案 设计 团队 需要 仔细 考虑 需要 解决 的 问题 及 其 应 用 场景 。 这 是 数据 科学 
最 重要 的 基本 原则 之 一 ， 本 书 将 用 整整 两 章 (第 7 章 和 第 11 章 ) 来 讨论 。 我 们 究竟 想 做 
什么 ? 如何 做 ? 应 用 场景 的 哪些 部 分 可 能 包含 数据 挖掘 模型 ? 在 详细 讨论 上 述 问题 时 ， 本 
书 会 先 采用 一 个 简化 的 应 用 场景 。 但 随 着 学 习 的 深入 ， 本 书 会 折 回 来 ， 根 据 实际 业务 需求 
不 断 调整 应 用 场景 。 本 书 还 会 介绍 一 些 概念 性 工具 来 辅助 思 芳 ， 比 如 ， 根 据 期 望 值 来 构建 
商业 问题 ， 有 助 于 把 问题 系统 地 分 解 为 多 个 数据 挖掘 任务 。 


2.4.2 ”数据 理解 环节 


如 果 目 标 是 解决 商业 问题 ， 那 么 构成 解决 方案 的 原材料 就 应 该 包含 在 数据 里 。 因 为 几乎 没 
有 一 份 数据 能 完全 符合 问题 的 需求 ， 所 以 我 们 需要 了 解数 据 的 优势 和 局 限 性 。 收 集 历史 数 
据 的 原始 目的 往往 与 当前 面 对 的 商业 问题 无 关 ， 有 些 历史 数据 甚至 根本 没有 明确 的 收集 目 
的 。 另 外 ， 用 户 数据 、 交 易 数 据 和 市 场 回 馈 数 据 包含 不 同 的 信息 ， 其 涵盖 的 交 又 人 群 和 数 
据 的 可 靠 程 度 也 可 能 不 同 。 


数据 的 成 本 不 一 也 是 常见 现象 。 有 的 数据 几乎 可 以 免费 获取 ， 有 的 却 需 要 费 点 力气 才能 获 
得 。 有 的 数据 可 以 买 到 ， 有 的 数据 却 根本 不 在 在， 而 采集 它们 甚至 需要 一 个 辅助 项 目 。 数 据 
理解 环节 的 关键 是 估计 每 个 数据 源 的 成 本 和 收益 ， 从 而 决定 是 否 有 必要 进一步 投资 。 即 使 所 
有 数据 集 都 收集 齐全 时 ， 也 需要 额外 花 力气 对 其 进行 核对 。 比 如 ， 众 所 周知 ， 用 户 记 录 和 产 
品 识别 码 多 变 且 杂乱 ， 清 洗 数据 并 匹配 用 户 记录 ， 以 确保 用 户 和 记录 一 一 对 应 ， 这 本 身 就 
是 一 个 复杂 的 分 析 问 题 (Hernindez & Stolfo, 1995; Elmagarmid, Ipeirotis & Verykios, 2007). 


随 着 数据 理解 环 市 的 深入 ， 问 题解 决 路 径 的 方向 可 能 会 随 之 改变 ， 而 数据 团队 的 工作 甚至 
有 可 能 产生 分 支 。 以 欺诈 检测 为 例 。 数 据 挖掘 技术 被 广泛 地 应 用 于 欺诈 检测 ， 而 许多 欺诈 
检测 问题 都 涉及 经 典 的 有 监督 型 数据 挖 据 工作 。 请 思考 一 个 信用 卡 反 欺 诈 示例 。 因 为 消费 
记录 会 呈现 在 每 个 用 户 的 账户 里 ， 所 以 盗 刷 行为 很 容易 被 发 现 一 要 么 一 开始 被 信用 卡 公 
司 发 现 ， 要 么 事后 在 查看 账户 记录 时 被 顾客 发 现 。 因 为 合法 用 户 和 欺诈 罪犯 是 目的 完全 相 
反 的 、 截 然 不 同 的 人 ， 所 以 可 以 假设 几乎 所 有 的 欺诈 行为 都 被 识别 并 合理 标注 了 。 因 此 信 
用 卡 交 易 就 有 了 可 靠 的 、 能 作为 有 监督 型 数据 挖掘 的 目标 变量 的 标签 (欺诈 和 合法 )。 


现在 请 思考 男 一 个 相关 问题 ， 反 医保 欺诈 。 这 个 问题 在 美国 每 年 都 会 耗费 数 十 亿美 元 。 尽 
管 它 看 上 去 很 像 一 个 传统 的 欺诈 检测 问题 ,但 只 要 思考 一 下 这 个 问题 与 数据 的 关系 ， 就 能 
意识 到 ， 这 两 个 问题 其 实 巡 然 不 同 。 这 个 问题 中 的 欺诈 者 一 一 提出 虚假 保险 赔付 申请 的 医 
疗 机 构 或 患者 一 一 也 是 医保 系统 中 的 合法 医疗 机 构 和 合法 用 户 。 因 为 欺诈 者 是 合法 用 户 的 
一 部 分 ， 所 以 并 不 存在 一 个 客观 公正 的 中 立方 来 告诉 我 们 “正确 ”的 收费 价格 应 是 多 少 。 
其 结果 就 是 ， 医 保费 用 数据 没有 可 靠 的 、 能 标注 欺诈 行为 的 目标 变量 ， 因 此 ， 适 用 于 信用 
卡 欺 诈 的 有 监督 学 习 方法 也 就 不 适用 了 。 这 样 的 问题 通常 需要 用 无 监督 方法 ， 如 画像 分 
析 、 聚 类 、 异 常 检测 和 共 现 分 组 来 解决 。 


以 上 两 个 问题 似乎 都 是 欺诈 检测 问题 ， 然 而 这 种 相似 仅仅 是 表面 上 的 ， 而 且 非 常 具有 误导 
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性 。 在 数据 理解 环节 ， 需 要 深 挖 到 表面 之 下 ， 来 发 掘 商业 问题 的 结构 和 可 用 的 数据 ， 然 后 
把 它们 和 一 种 或 多 种 数据 挖掘 任务 相对 应 ， 以 充分 应 用 科学 和 技术 手段 来 解决 问题 。 通 
常 ， 一 个 商业 问题 会 对 应 多 个 数据 挖掘 任务 ， 而 且 这 些 任务 往往 种 类 不 同 ， 因 而 有 必要 将 
其 解决 方案 进行 组 合 〈 详 见 第 11 章 )。 


2.4.3 ”数据 准备 环节 


虽然 我 们 可 以 运用 的 分 析 技 术 十 分 强大 ， 但 是 它们 对 所 使 用 的 数据 有 一 些 特定 要 求 。 通 
常 ， 因 为 它们 要 求 的 数据 格式 与 数据 产生 时 的 原始 格式 不 同 ， 所 以 需要 对 数据 进行 转化 。 
因此 ， 数 据 准 备 环节 往往 紧 跟 着 数据 理解 环节 ， 而 在 此 环节 中 ， 数 据 被 处 理 转化 成 特定 格 
式 ， 以 获得 更 好 的 结果 。 


典型 的 数据 准备 的 例子 有 : 把 数据 转化 为 表格 格式 、 删 除 或 推断 出 缺失 值 ， 以 及 转换 数据 
类 型 。 有 的 数据 挖掘 方法 适用 于 符号 数据 和 分 类 数据 ， 有 的 则 适用 于 数值 型 数据 。 此 外 ， 
数值 往往 需要 归 一 化 或 调整 比例 ， 以 便于 进行 比较 。 上 述 几 种 转换 都 有 相应 的 标准 技术 和 
经 验 法 则 。 第 3 章 将 详细 讨论 数据 挖掘 所 用 的 几 种 最 典型 的 数据 格式 。 

然而 ， 本 书 不 会 重点 讨论 数据 准备 技术 ， 因 为 该 话题 本 身 即 可 单独 成 书 (Pyle, 1999)。 接 
下 来 的 几 章 将 只 定义 一 些 基 本 的 数据 格式 ， 而 且 仅 在 需要 其 帮助 理解 数据 科学 的 基本 原理 
或 更 好 地 展示 具体 示例 时 ， 才 会 详细 解释 数据 准备 。 


通常 来 说 ， 数 据 科 学 家 往往 会 在 初期 投入 大 量 时 间 来 定义 之 后 会 用 到 的 变 
量 ， 而 这 是 人 的 创造 力 、 常 识 和 商业 知识 发 挥 作 用 的 主要 时 期 。 通 常 ， 数 据 
挖掘 结果 的 好 坏 ， 主 要 依赖 于 分 析 师 能 否 非常 好 地 构建 问题 和 设计 变量 ( 虽 
然 有 时 他 们 很 难 承认 这 一 点 )。 





































































































在 数据 准备 环节 ， 有 一 个 非常 常见 且 重 要 的 问题 需要 注意 ， 这 就 是 “漏洞 ”(Kaufman 等 , 
2012)。 漏 洞 是 指 ， 虽 然 历史 数据 中 的 一 个 变量 会 提供 有 关 目 标 变 量 的 信息 ， 但 这 些 信息 
在 需要 进行 决策 时 尚 不 存在 。 举 个 例子 。 "一 个 网 络 会 话 中 的 网 页 访问 总 数 ” 这 个 变量 可 
以 用 来 预测 某 个 上 网 者 在 某 个 特定 时 间 点 是 会 结束 浏览 该 网 站 ， 还 是 会 继续 访问 网 站 的 其 
他 页 面 。 但 该 变量 的 值 在 该 会 话 结束 前 是 未 知 的 ， 而 在 会 话 结 束 后 ， 就 可 以 直接 得 到 目标 
值 ， 而 不 需要 通过 预测 来 推断 它 了 (Kohavi 等 , 2000)。 再 举 一 个 例子 。 对 于 预测 顾客 是 
否 是 一 名 “土豪 ”而 言 ， 其 所 购 商 品 的 种 类 (或 退 而 求 其 次 ， 支 付 的 税额 非常 有 用 ， 可 
是 在 预测 时 是 不 可 能 知道 该 变量 的 值 的 (Kohavi & Parekh, 2003 ) 。 在 数据 准备 环节 ， 必 须 
慎重 考虑 漏洞 问题 ， 因 为 数据 准备 往往 是 基于 已 发 生 的 事实 〈 即 历史 数据 ) 的 。 第 14 章 
会 更 详细 地 展示 一 个 难以 发 现 的 漏洞 问题 的 真实 示例 。 


24.4 ” 建 模 环 节 

由 于 建 模 环节 是 接 下 来 几 章 的 主题 ， 所 以 在 此 处 不 加 歼 述 。 但 不 得 不 说 的 是 ， 建 模 环节 所 
输出 的 就 是 能 反映 数据 中 的 规律 的 模型 或 模式 。 

建 模 环 节 是 将 数据 挖掘 技术 应 用 于 数据 的 主要 阶段 。 你 需要 理解 数据 挖掘 的 基本 概念 ， 包 
括 现 有 技术 和 算法 的 种 类 ， 因 为 科学 和 技术 正 是 在 数据 挖掘 的 这 个 环节 发 挥 了 最 大 的 作用 。 
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2.4.5 评估 环节 


评估 环节 的 目的 是 严格 评估 数据 挖掘 结果 ， 以 确保 它们 有 效 且 可 靠 ， 能 够 用 于 下 一 步 。 只 
要 仔细 地 探查 一 个 数据 集 ， 总 能 从 中 发 现 各 种 模式 。 但 在 严格 的 审查 下 ， 这 些 模式 却 可 能 
根本 站 不 住 脚 。 我 们 希望 能 确保 从 数据 中 提取 出 的 模型 和 模式 能 体现 真正 的 规律 ， 而 不 是 
特殊 情况 或 样本 异常 。 你 可 以 在 数据 挖掘 结束 后 直接 应 用 其 结果 ， 但 我 们 不 建议 你 这 人 么 
做 。 通 常 ， 在 应 用 某 个 模型 之 前 ， 先 在 可 控 的 实验 室 环境 下 对 其 进行 测试 ， 才 是 更 加 简 
单 、 廉 价 、 快 速 和 安全 的 做 法 。 


同样 重要 的 是 ， 评 估 环 节 还 能 确保 模型 满足 最 初 的 商业 目的 。 要 记得 ， 商 业 中 数据 科学 的 
首要 目标 是 辅助 决策 ， 而 且 从 开始 应 用 数据 挖掘 起 ， 我 们 就 聚焦 于 想 要 解决 的 商业 问题 。 
通常 ， 数 据 挖掘 给 出 的 解决 方案 只 是 一 个 大 方案 的 一 部 分 ， 它 同样 需要 评估 。 即 使 模型 在 
“实验 室 ” 里 经 受 住 了 严格 的 评估 ， 也 可 能 会 因 某 些 其 他 外 部 因素 而 失效 。 比 如 ， 检 测 解 
决 方案 (如若 诈 检测 、 垃 圾 邮件 检测 和 入 侵 监 测 ) 的 通病 就 是 误 报 太 多 。 同 一 个 模型 ， 在 
实验 宝 标 准 下 可 能 极其 准确 (>99%)， 而 在 实际 商业 背景 下 却 可 能 由 于 出 现 过 多 误 报 ， 以 
致 成 本 太 高 而 无 法 使 用 。( 想 一 想 ， 处 理 所 有 误 报信 息 的 成 本 是 多 少 ? 而 安抚 客户 不 满 情 
绪 的 成 本 又 是 多 少 ? ) 

数据 控 据 结果 的 评估 环节 包含 定量 评估 和 定性 评估 。 企 业 的 各 种 利益 相关 者 都 关心 数据 控 
掘 输出 的 最 终 模型 做 出 或 者 辅助 做 出 的 商业 决策 。 在 许多 情况 下 ， 模 型 的 应 用 需要 得 到 他 
们 的 “同意 ”， 而 他 们 同意 的 前 提 是 对 模型 决策 的 质量 感到 满意 。 上 述 情境 会 因应 用 而 异 ， 
但 利益 相关 者 们 往往 想 知道 应 用 这 个 模型 是 否 利 大 于 坏 ， 尤 其 是 该 模型 会 不 会 出 现 致命 错 
误 。* 为 了 促成 这 种 定性 评估 ， 数 据 科学 家 必须 要 考虑 模型 对 于 企业 利益 相关 者 (而 不 仅 
仅 是 数据 科学 家 ) 而 言 的 可 理解 性 。 如 果 模 型 本 身 就 令 人 费解 (比如 有 许多 复杂 的 数学 公 
式 )， 那 数据 科学 家 又 怎么 能 让 模型 的 表现 易于 理解 呢 ? 

最 后 ， 具 备 一 个 综合 评估 框架 是 非常 重要 的 。 这 是 因为 ， 从 一 个 已 经 部 署 的 模型 中 获取 其 
表现 的 详细 信息 是 十 分 困难 的 ， 有 时 这 甚至 是 不 可 能 的 。 首 先 ， 由 于 对 部 署 环境 的 访问 受 
到 限制 ， 所 以 “生产 中 ”的 综合 评估 就 变 得 非常 困难 。 其 次 ， 已 部 署 系统 通常 包含 许多 
“活动 部 分 "， 因 而 对 每 个 单独 环节 进行 评估 也 很 困难 。 鉴 于 这 种 情况 ， 拥 有 成 熟 数据 科学 
团队 的 公司 会 明智 地 搭建 尽 可 能 反映 真实 生产 数据 的 实验 环境 ， 以 便 在 部 署 模型 前 得 到 最 
真实 的 评估 。 


尽管 如 此 ， 在 某 些 情况 下 ， 我 们 也 想 通过 构建 能 进行 随机 化 试验 的 实时 系统 等 方法 ， 在 开 
发 环节 进行 评估 。 在 用 户 流失 示例 中 ， 如 确定 数据 挖掘 产 出 的 某 个 模型 能 使 用 户 流失 情况 
好 转 ， 那 么 我 们 下 一 步 可 能 会 进行 “活体 ”评估 ， 即 实时 系统 将 模型 随机 应 用 于 某 些 用 
户 ， 而 将 其 他 用 户 作为 对 照 组 (还 记得 第 1 章 讨论 的 因果 模型 吗 )。 这 样 的 实验 必须 经 过 
精心 设计 ,但 因 其 技术 细节 超出 了 本 书 的 讨论 范围 ， 在 此 不 做 讨论 。 感 兴趣 的 读者 不 妨 读 
一 读 Ron Kohavi 等 人 的 文章 (Kohavi 等 , 2007, 2009, 2012)。 我 们 还 想 对 已 部 署 的 系统 进 
行 评估 ， 以 确保 外 界 环境 的 变化 不 会 对 模型 决策 造成 负面 影响 。 比 如 ， 有 些 事件 (如 欺诈 
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注 4: 比如 ， 在 某 数据 挖掘 项 目 中 ， 为 了 诊断 当地 电话 网 络 的 故障 并 向 疑似 的 故障 地 点 派遣 技 术 人 员 ， 人 们 
构建 了 一 个 模型 。 在 部 署 该 模型 之 前 ， 电 话 公司 的 一 些 利 益 相 关 者 要 求 对 模型 进行 微调 ， 以 便 对 各 医 
院 进 行 特殊 处 理 。 
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或 垃圾 邮件 ) 的 表现 在 模型 部 署 后 会 即刻 发 生 改 变 。 另 外 ， 模 型 的 输出 很 大 程度 上 依赖 于 
其 输入 数据 ， 而 输入 数据 的 格式 或 者 内 容 经 常会 在 数据 科学 团队 不 知情 的 情况 下 发 生 改 
变 。Raeder 等 人 (2012) 为 了 帮助 处 理 诸如 此 类 的 已 部 署 系统 评估 及 相关 的 问题 ， 对 系统 
设计 进行 了 详细 探讨 。 


246 部署 环节 


在 部 署 环 节 ， 数 据 挖 掘 结 果 乃 至 数据 挖掘 技术 本 身 正 〈 越 来 越 多 地 ) 付 诸 实际 使 用 ， 以 获 
取 投 资 回报 。 最 简明 的 一 类 示例 涉及 在 某 些 信息 系统 或 业务 流程 中 实现 预测 模型 。 在 用 户 
流失 示例 中 ， 可 以 将 预测 流失 概率 的 模型 接 入 用 户 流失 管理 系统 ， 这 样 ， 管 理 系 统 就 可 以 
向 那些 极 有 可 能 离开 公司 的 用 户 发 送 特殊 优惠 (后 文中 会 进一步 探讨 )。 我 们 还 可 以 将 新 
型 欺诈 检测 模型 嵌入 到 劳动 力 管理 信息 系统 中 ， 以 监视 用 户 账户 并 “ 挑 出 ”可 疑 交 易 交 予 
欺诈 分 析 师 进行 人 工 检 验 。 

数据 挖掘 技术 本 身 越 来 越 多 地 被 直接 部 署 。 比 如 ， 在 精准 投放 线 上 广告 时 ， 我 们 会 选择 章 
署 能 在 新 广告 宣传 活动 出 现时 ， 能 自动 批量 构建 (并 测试 ) 模型 的 系统 。 之 所 以 部 署 数 据 
挖掘 系统 而 非 其 产 出 的 模型 ， 主 要 原因 有 二 : 一 是 诸如 欺诈 检测 和 入 侵 监 测 一 类 的 技术 变 
化 太 快 ， 数 据 科 学 团队 难以 招架 ， 二 是 一 个 企业 要 构建 的 商业 模型 太 多 ， 数 据 科 学 团队 无 
法 对 每 个 模型 都 进行 精心 的 手工 构建 。 因 此 ， 在 生产 中 最 好 直接 部 署 数据 挖掘 技术 。 如 此 
一 来 ， 其 关键 就 是 构建 预警 系统 ， 以 将 异常 情况 及 时 告知 数据 科学 团队 并 提供 失效 保护 操 
{E (Raeder 等 , 2012), 
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我 们 也 可 以 选择 不 那么 “技术 范 ” 的 部 署 方式 。 在 一 个 著名 的 案例 中 ， 数 据 
挖掘 发 现 了 一 套 能 帮助 人 们 快速 诊断 工业 印刷 中 的 常见 错误 并 对 其 进行 修复 
的 规则 。 而 部 署 这 套 规则 只 需要 把 写 有 规则 的 清单 贴 在 打印 机 旁 (Evans & 
Fisher, 2002)。 部 署 环节 也 可 以 更 加 巧妙 ， 比 如 改变 获取 数据 的 过 程 ， 或 根 
据 数据 挖掘 所 获得 的 信息 对 战略 、 营 销 或 运营 环节 做 些 调整 。 

















将 模型 部 署 于 生产 系统 时 ， 往 往 需要 根据 生产 环境 对 模型 进行 重新 编码 。 这 通常 是 为 了 提 
高 速度 或 提高 该 模型 与 现存 系统 的 兼容 性 。 但 这 可 能 会 造成 高 额 费用 或 投入 。 在 许多 情况 
下 ， 数 据 科学 团队 不 仅 需 要 开发 出 一 个 可 运行 的 原型 ， 还 需要 对 其 进行 评估 ， 然 后 再 将 其 
转交 给 开发 团队 进行 编码 实现 。 


实际 操作 中 ， 由 数据 科学 团队 建 模 到 转交 开发 团队 实现 的 过 程 是 有 风险 的 。 
请 谨 记 这 句 话 :“ 你 的 模型 不 是 数据 科学 家 设计 的 那个 ， 而 是 数据 工程 师 拱 
建 的 那个 。” 从 管理 层 角度 看 ， 开 发 团队 最 好 尽早 派 成 员 参 与 到 数据 科学 项 
目 中 ， 以 顾问 的 身份 向 数据 科学 团队 提供 意见 和 建议 。 在 实践 中 ， 这 类 特殊 
的 开发 人 员 实 质 上 逐渐 变 成 了 “数据 科学 工程 师 ”， 即 在 生产 系统 和 数据 科 
学 两 方面 都 拥有 专业 知识 的 软件 工程 师 。 随 着 项 目的 推进 ， 他 们 的 责任 也 念 
发 重大 。 有 时 他 们 需要 取得 主导 地 位 ， 行 使 对 产品 的 主导 权 。 一 般 而 言 ， 数 
据 科学 家 们 需要 自始至终 参与 项 目 ， 直 至 其 最 终 部 署 。 依 据 技能 不 同 ， 他 们 
的 身份 既 可 以 是 顾问 ， 也 可 以 是 开发 人 员 。 
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不 管 部 署 环节 是 否 成 功 ， 整 个 流程 往往 都 会 再 回 到 商业 理解 环节 。 数 据 挖 掘 流程 能 够 暴露 
出 商业 问题 和 其 解决 方案 的 难点 ， 而 通过 第 二 次 迭代 ， 就 能 改进 解决 方案 。 单 是 思 萎 业 
务 、 数 据 和 绩效 目标 的 过 程 ， 往 往 就 有 助 于 想 出 提升 业绩 的 新 思路 ， 有 时 甚至 还 能 开辟 新 
的 业务 线 或 创造 新 的 投资 机 会 。 

值得 注意 的 是 ， 不 一 定 非 要 等 到 部 署 环节 失败 才能 重启 数据 挖掘 的 大 循环 。 在 评估 环节 就 
可 能 发 现 评估 结果 并 未 达到 部 署 标准 ， 而 此 时 就 需要 调整 问题 定义 或 获取 其 他 数据 。 这 个 
过 程 即 图 2-2 中 由 评估 环节 指向 商业 理解 环节 的 “捷径 ”。 在 实际 中 ， 每 个 环节 都 应 有 回 到 
其 之 前 环 市 的 “捷径 ”， 这 是 因为 数据 挖 气 流程 的 每 个 环 市 都 有 一 定 的 探索 性 ， 而 当 有 新 
发 现 需要 纳入 考量 时 ， 我 们 就 需要 有 足够 的 灵活 性 来 退回 到 之 前 的 各 环节 。 
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我 们 很 容易 把 数据 挖掘 流程 视 为 软件 开发 过 程 ， 但 这 是 错误 的 。 诚 然 ， 数 据 挖掘 项 目 往往 
被 当成 工程 项 目 并 受到 和 工程 项 目 相同 的 管理 。 当 数据 挖掘 项 目 是 由 软件 部 门 发 起 时 ， 这 
还 情 有 可 原 。 毕 竞 数据 是 由 大 型 软件 系统 生成 的 ， 而 分 析 结果 最 终 也 要 反馈 进 该 系统 。 管 
理 人 员 通常 更 熟悉 软件 技术 ， 且 更 擅长 管理 软件 项 目 ， 因 为 软件 项 目的 里 程 碑 很 容易 商 
定 ， 而 项 目 成 功 与 否 通常 也 很 明确 。 当 软件 项 目的 管理 人 员 看 到 CRISP 数据 挖掘 循环 ( 见 
图 2-2) 时 ， 可 能 觉得 它 与 软件 开发 循环 非常 相似 ， 因 此 他 们 认为 自己 如 果 用 管理 软件 开发 
项 目的 方法 来 管理 分 析 项 目 ， 很 快 就 会 得 心 应 手 。 
然而 这 种 想法 并 不 正确 ， 因 为 数据 挖掘 是 一 项 探索 工作 ， 它 更 接近 于 研究 和 开发 ， 而 不 是 
工程 。CRISP 循环 就 基于 探索 ， 其 迭代 的 是 方法 和 策略 ， 而 非 软件 设计 。 其 产 出 的 结果 可 
能 非常 不 确定 ， 而 且 任何 一 步 的 结果 都 有 可 能 改变 对 问题 的 基本 理解 。 直 接 开发 用 于 部 团 
的 数据 挖掘 解决 方案 是 一 个 昂贵 且 不 成 熟 的 想法 。 与 此 相反 ， 各 种 数据 分 析 项 目 往往 需要 
通过 在 信息 上 投资 来 从 各 方面 降低 不 确定 性 。 我 们 可 以 先 小 规模 地 投资 于 试点 研究 和 一 次 
性 原型 。 数 据 科学 家 也 应 通过 文献 研究 寻找 其 他 方案 及 其 具体 运作 方法 。 如 果 团队 考虑 进 
行 大 规模 的 投资 ， 则 可 以 搭建 可 供 敏 捷 试验 使 用 的 测试 平台 。 如 果 你 是 一 名 软件 工程 管理 
人 员 ， 那 么 上 述 这 些 内 容 看 起 来 可 能 更 像 研究 与 探索 ， 而 不 是 你 习以为常 的 工作 。 而 这 其 
会 让 你 不 太 适 应 。 


软件 技能 与 分 析 技能 

虽然 数据 挖掘 与 软件 相关 ， 但 其 所 需 的 不 仅仅 是 程序 员 常 用 的 编程 技能 。 软 
件 工 程 崇尚 按 需 求 编写 高 效 、 高 质量 的 代码 。 在 评估 其 团队 成 员 时 ， 他 们 也 
使 用 软件 指标 ， 如 该 成 员 所 编写 的 代码 量 或 所 修复 的 故障 数 。 然 而 对 分 析 师 
而 言 ， 更 重要 的 是 能 够 明确 表达 问题 、 迅 速 构建 解决 方案 、 对 结构 拙劣 的 问 
题 提 出 合理 假设 、 设 计 能 够 代表 大 量 投资 的 实验 和 对 结果 进行 分 析 。 因 此 ， 
在 建立 数据 科学 团队 时 ， 以 上 这 些 技能 〈 而 非 传统 的 软件 工程 的 专业 能 力 ) 
才 是 需要 考虑 的 。 







































































































































































TES: 对 软件 方面 的 专业 人 员 而 言 ， 这 种 情况 很 像 一 名 哲 言 : “失败 越 快 ， 成 功 越 早 。” (Muoio, 1997) 
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2.6 其 他 分 析 技 巧 与 技术 


商业 分 析 涉 及 许多 技术 在 数据 分 析 上 的 应 用 ， 其 中 大 部 分 并 非 本 书 的 重点 内 容 ， 本 书 重 点 
关注 的 是 数据 分 析 式 思维 以 及 从 数据 中 获取 有 用 模式 的 原理 。 然 而 ， 我 们 仍 需要 熟悉 这 些 
相关 技术 ， 了 解 它们 的 目的 和 作用 ， 并 且 清 楚 何 时 应 该 向 相关 专家 寻求 帮助 。 


为 此 ， 本 章 将 展示 六 组 相关 的 分 析 技术 ， 并 在 合适 的 时 机 将 其 与 数据 挖掘 进行 比较 。 两 者 
最 主要 的 区 别 是 ， 数 据 挖 掘 致力 于 从 数据 中 自动 寻找 知识 、 模 式 和 规律 。 ' 商业 分 析 师 的 一 
项 重要 技能 就 是 识别 出 适合 解决 特定 问题 的 分 析 技 术 。 


2.6.1 统计 


“统计 ”一 词 在 商业 分 析 中 有 两 种 用 法 。 第 一 种 是 作为 从 数据 中 计算 特定 数值 时 的 万 能 
词 (比如 :“ 我 们 得 收集 一 些 关 于 顾客 使 用 量 的 统计 数据 ， 看 看 出 了 什么 问题 ")。 这 些 数 
值 通常 包括 总 和 、 平 均值 和 比率 等 ， 此 处 我 们 称 其 为 “汇总 统计 量 ”*。 我 们 往往 想 挖 据 更 
深 处 的 信息 ， 并 按 某 些 特定 条 件 来 计算 总 体 中 一 个 或 多 个 子 集 的 汇总 统计 量 〈 比 如 :“ 男 
女 用 户 的 流失 比率 是 否 不 同 ” ”和 “美国 东北 地 区 高 收入 顾客 的 流失 比率 如 何 ?”)。 汇 总 
统计 量 是 许多 数据 科学 理论 和 实践 中 的 基本 元 素 。 


汇总 统计 量 应 根据 要 解决 的 商业 问题 来 仔细 选择 (这 是 一 条 基本 原则 ， 接 下 来 会 讲 到 )， 
选择 时 也 需要 注意 进行 汇总 统计 的 数据 的 分 布 情况 。 比 如 ， 根 据 美国 《2004 年 人 口 普查 局 
经 济 调查 报告 》， 美 国人 均 收入 〈 平 均值 ) 超过 了 6 万 美元 ， 但 用 这 个 数据 来 衡量 平均 收 
入 、 辅 助 政治 决策 会 造成 误导 ， 因 为 美国 人 口 的 收入 分 布 是 非常 不 平衡 的 : 许多 人 收入 极 
低 ， 某 些 人 则 收入 极 高 。 在 这 种 情况 下 ， 算 术 平均 值 所 能 传达 的 人 口 收入 信息 相对 是 很 少 
的 。 因此， 应 访 用 另 一 种 指标 来 表示 “平均 ”收入 ， 如 中 位 数 。 人 口 收入 的 中 位 数 表示 在 
所 有 人 中 ， 有 一 半 挣 得 比 这 个 数 多 ， 而 另 一 半 挣 得 比 这 个 数 少 。2004 年 美国 人 口 普查 研究 
显示 ， 美 国人 口 收入 的 中 位 数 仅 有 44 389 美元 ， 比 平均 值 小 得 多 。 这 个 例子 似乎 十 分 浅 
显 ， 因 为 我 们 已 经 很 熟悉 “收入 中 位 数 ” 这 一 概念 了 ， 但 同样 的 道理 也 适用 于 任何 汇总 统 
计量 的 计算 。 在 开始 统计 前 ， 不 妨 问 问 自己 : 是 否 周全 地 考虑 了 所 要 解答 或 回答 的 整个 问 
题 ? 是否 考 虑 了 数据 的 分 布 情况 ?所 选 的 统计 量 是 否 合适 ? 

“统计 ”一 词 的 另 一 种 用 法 则 是 指 学 科 ， 即 常 说 的 “统计 学 *。 统 计 学 中 的 很 大 一 部 分 知识 
构成 了 分 析 学 的 理论 基础 ， 而 统计 学 也 可 以 被 视 为 数据 科学 这 个 大 领域 的 一 部 分 。 比 如 ， 
统计 学 能 让 我 们 了 解 不 同 的 数据 分 布 ， 以 及 它们 各 自 适 用 的 汇总 统计 量 ， 统 计 学 还 能 让 我 
们 知道 如 何 使 用 数据 来 检验 假设 和 估计 结论 的 不 确定 性 。 关 于 数据 挖 气 ， 假 设 检验 可 以 用 
于 判定 数据 挖掘 所 发 现 的 模式 是 有 效 而 普 适 的 规律 ， 还 是 在 特定 数据 集中 出 现 的 偶然 现象 
与 本 书 相关 的 是 ， 许 多 从 数据 中 获取 模型 或 模式 的 技术 都 能 在 统计 学 中 找到 其 理论 根源 。 
比如 ， 经 过 初步 研究 ， 可 能 会 发 现 美国 东北 部 地 区 的 用 户 流失 率 是 22.5%， 而 全 美国 的 
平均 用 户 流失 率 仅 为 15%。 这 种 情况 可 能 仅仅 是 一 种 侦 然 的 波动 ， 毕 竞 用 户 流失 率 是 一 
个 会 随地 区 和 时 间 改 变 的 变量 。 可 美国 东北 部 的 流失 率 是 全 美 平均 水 平 的 1.5 倍 ， 这 好 

























































































































































































TE 6: 值得 注意 的 是 ， 完 全 自动 地 从 数据 中 获得 发 现 非常 军 见 。 这 其 中 的 关键 是 ， 数据 挖掘 至 少 会 将 部 分 模 
式 寻找 和 知识 发 现 的 过 程 自动 化 ， 而 非 只 是 为 人 工 的 查找 过 程 和 发 现 过 程 提 供 技术 支持 。 
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像 有 些 过 高 了 。 这 种 情况 仅 由 随机 变化 导致 的 可 能 性 是 多 少 呢 ? 统计 假设 检验 就 能 够 回 
答 这 类 问题 。 

与 此 相关 的 一 个 概念 就 是 使 用 置信 区 间 将 不 确定 性 量化 。 尽 管 全 美 用 户 流 失 率 为 15%， 但 
是 这 个 值 不 是 固定 的 。 通 过 传统 数据 分 析 可 以 得 出 ， 在 95% 的 情况 下 ， 用 户 流失 率 在 13% 
到 17% 之 间 波 动 。 

数据 挖掘 中 被 称 作 假设 提出 的 过 程 与 上 述 过 程 正 好 互补 。 我 们 能 否 一 开始 就 发 现 数据 中 的 
模式 ?假设 在 被 提出 之 后 应 该 经 过 谨慎 的 检验 (通常 基于 不 同 的 数据 ， 参 见 第 5 章 )。 另 
外 ， 在 数据 挖掘 中 会 出 现 数值 估计 ， 而 这 些 数值 估计 也 通常 需要 给 出 置信 区 间 。 这 个 话题 
在 随后 探讨 数据 挖掘 结果 评估 时 会 再 行 讨 论 。 
本 书 不 会 用 过 多 的 篇 幅 来 讨论 这 些 基 础 的 统计 学 概念 。 因 为 关于 统计 学 和 商业 统计 的 入 门 
书 已 经 非常 多 ， 所 以 如 果 本 书 非 要 讨论 某 个 主题 的 话 ， 其 观点 会 非常 狭隘 或 非常 浅薄 。 
即便 如 此 ， 在 商业 分 析 背 景 下 ， 我 们 还 是 会 经 常 听 到 “相关 性 ”这 个 统计 术语 ， 比 如 : 
“有 什么 指标 与 未 来 的 用 户 流失 有 相关 性 ? ”就 像 术语 “统计 (学 )” 一 样 ,“ 相 关 性 ”也 
有 一 个 通用 含义 〈 一 个 数量 的 改变 预示 着 另 一 个 数量 的 改变 ) 和 一 个 特定 的 技术 性 含义 
(例如 ， 由 特定 数学 公式 定义 的 线性 相关 )。 相 关 性 的 概念 将 是 后 文中 (从 下 一 章 开 始 ) 关 
于 商业 数据 科学 余下 部 分 讨论 的 出 发 点 。 


2.6.2 ”数据 库 查 询 


查询 是 一 种 由 专门 语言 编写 ， 从 数据 库 系统 中 请 求 数据 子 集 或 数据 统计 的 操作 。 许 多 工具 
都 可 以 用 来 执行 分 析 人 员 发 出 的 一 次 性 或 重复 性 的 数据 请 求 。 这 类 工具 通常 是 数据 库 系 统 
的 前 端 ， 我 们 可 以 基于 结构 化 查询 语言 (SQL) 或 图 形 用 户 界面 (GUI) 建立 查询 (如实 
例 查询 ， 也 称 QBE)。 比 如 ， 如 果 分 析 师 能 定义 一 个 可 基于 数据 库 内 数据 计算 的 操作 术语 
“恒利 性 "， 那 么 查询 工具 就 可 以 回答 “ 谁 是 美国 东北 部 地 区 带 来 最 多 利润 的 用 户 ” 这 个 问 
题 。 运 行 查询 之 后 ， 分 析 师 会 得 到 一 个 按 带 来 利润 的 多 少 排序 的 用 户 名 单 。 由 于 查询 本 身 
不 会 发 现 模式 或 者 模型 ， 所 以 它 与 数据 挖掘 在 本 质 上 是 不 同 的 。 

数据 库 查 询 适 用 于 分 析 师 清楚 数据 中 的 哪个 子 集 值 得 分 析 ， 并 打算 研究 这 个 子 集 或 验证 某 
个 关于 它 的 假设 的 情况 。 比 如 ， 如 果 分 析 师 怀疑 美国 东北 部 地 区 的 中 年 男性 存在 一 些 特别 
值得 关注 的 用 户 流失 行为 ， 他 就 可 以 编写 如 下 SQL 查询 语句 : 

SELECT * FROM CUSTOMERS WHERE AGE > 45 and SEX='M' and DOMICILE = 'NE' 


如 果 我 们 希望 针对 这 些 用 户 投放 优惠 活动 ， 那 么 查询 工具 就 能 从 数据 库 的 CUSTOMERS 表 中 
找到 他 们 的 所 有 信息 (用 “*” 来 选择 )。 

与 此 相反 ， 我 们 可 以 首先 用 数据 挖掘 (以 数据 中 的 模式 或 规律 的 形式 ) 编写 这 条 查询 。 数 
据 挖 据 过 程 可 以 先 检 查 之 前 的 用 户 流失 状 况 ， 然 后 判定 可 以 对 该 部 分 (年 龄 大 于 45 岁 ， 
性 别 为 男性 ， 居 住地 为 美国 东北 部 ) 用 户 的 流失 率 做 出 相应 预测 。 这 个 标准 被 转化 成 SQL 
语句 后 ， 查 询 工具 就 能 够 在 数据 库 中 找到 符合 要 求 的 记录 。 

查询 工具 通常 能 够 执行 复杂 的 逻辑 运算 ， 包 括 计算 数据 子 集 的 汇总 统计 、 排 序 、 用 相关 数 
据 关联 多 个 数据 表 等 。 数 据 科 学 家 往往 非常 擅长 通过 编写 查询 语句 来 获取 所 需 数据 。 
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为 了 辅助 数据 探索 ， 联 机 分 析 处 理 (OLAP) 提供 了 一 个 易于 使 用 的 图 形 用 户 界面 来 查询 
大 型 数据 集 。“ 联 机 ”是 指 该 处 理 过 程 是 实时 的 ， 由 此 分 析 师 和 决策 者 可 以 快速 高 效 地 得 
到 查询 结果 。 与 SQL 之 类 查询 工具 的 “临时 ”查询 不 同 ， 用 于 OLAP 的 分 析 维度 都 需要 
预先 编码 写 人 系统 。 如 果 我 们 预料 到 要 探索 销量 与 地 区 和 时 间 的 关系 ， 那 么 就 需要 提前 把 
这 三 个 维度 编 入 系统 ， 随 后 简单 地 通过 点 击 、 拖 动 和 操作 动态 表格 的 方式 下 外 到 总 体 中 。 


OLAP 系统 的 设计 目的 是 帮助 分 析 师 实现 对 数据 的 人 工 和 可 视 化 探索 ， 它 并 不 能 进行 建 模 
或 自动 发 现 模式 。 而 数据 挖掘 能 够 在 数据 探索 过 程 中 轻松 地 将 新 的 维度 纳入 分 析 中 。 不 
过 ，OLAP 工具 可 以 作为 数据 挖掘 工具 的 有 力 补 充 ， 帮 助 探索 商业 数据 。 


2.6.3 ”数据 仓库 


数据 仓库 可 以 从 整个 企业 (通常 是 从 多 个 拥有 独立 数据 库 的 交易 处 理 系统 ) 中 收集 数据 
并 进行 合并 ， 以 供 分 析 系 统 访问 。 数 据 仓 库 可 以 被 视 作 数据 挖掘 工作 的 辅助 工具 ， 但 由 
于 大 部 分 数据 挖掘 工作 并 不 使 用 数据 仓库 ， 所 以 它 并 非 数据 挖掘 工作 的 必 备 项 。 然 而 ， 
使 用 数据 仓库 的 公司 往往 能 够 将 数据 挖掘 进行 得 更 广泛 、 更 深入 。 比 如 ， 如 果 数据 仓库 
不 仅 包含 人 力 资源 数据 ， 还 包含 销售 数据 和 收银 数据 ， 就 可 以 用 来 探索 优秀 销售 人 员 的 
特征 模式 。 


2.6.4 回归 分 析 

本 书 中 讨论 的 一 些 方法 是 另外 一 套 分 析 方 法 的 核心 ， 后 者 通常 被 归 为 回归 分 析 ， 并 且 被 广 
泛 地 应 用 于 统计 学 及 其 他 基于 计量 经 阐 分 析 的 领域 。 相 比 一 般 的 介绍 回归 分 析 的 教材 或 课 
程 ， 本 书 的 侧重 点 有 所 不 同 。 本 书 不 会 解释 特定 数据 集 ， 而 更 关心 如 何 从 中 获取 适合 推广 
的 模式 ， 以 便 改进 相关 的 商业 流程 。 通 常 ， 这 会 涉及 估计 和 预测 未 在 已 分 析 的 数据 集 内 的 
目标 变量 的 值 。 举 个 例子 ， 在 本 书 中 ， 比 起 根据 某 组 特定 的 历史 数据 深入 挖 扬 用 户 流失 的 
原因 (尽管 它 很 重要 )， 我 们 更 想 预 测 现 存 用 户 中 哪些 是 预防 用 户 流 失 的 最 佳 目 标 。 因 此 ， 
本 书 将 花 些 篇 幅 来 讨论 如 何 通 过 使 用 新 数据 来 检验 某 个 模式 是 否 具 有 普遍 意义 ， 以 及 如 何 
减少 某 一 模式 仅 适 用 于 某 组 数据 ， 但 不 能 推广 到 数据 总 体 的 情况 。” 

虽然 有 关 解 释 性 建 模 和 预测 性 建 模 的 话题 会 引发 深刻 的 探讨 “但 这 远 超出 了 本 书 范围 。 必 
须要 了 解 的 是 ， 尽 管 两 种 建 模 方法 所 用 的 技术 有 很 多 重合 ， 然 而 解释 性 建 模 所 得 出 的 内 容 
不 全 适用 于 预测 性 建 模 。 因 此 学 习 过 回归 分 析 的 读者 可 能 会 遇 到 新 知识 ， 甚 至 与 已 有 知识 
似乎 相 了 矛盾 的 知识 。” 


2.6.5 ”机 器 学 习 与 数据 挖掘 
机 器 学 习 方法 是 从 数据 中 提取 (预测 性 ) 模型 的 一 系列 方法 。 它 在 多 个 领域 同时 得 到 发 
展 ， 而 这 些 领域 中 最 广为人知 的 是 机 器 学 习 、 应 用 统计 和 模式 识别 三 个 领域 。 其 中 ， 机 器 



































































































































注 7， 即 模型 的 泛 化 能 力 差 。 一 一 译 者 注 

注 8 感 兴趣 的 读者 不 妨 读 一 读 Shmueli (2010) 的 文章 。 

注 9， 读 者 可 以 通过 深入 学 习 解 决 这 些 表面 上 的 矛盾 ， 不 过 这 样 的 深入 学 习 对 于 理解 数据 科学 的 基础 原理 而 
言 并 非 必需 。 
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学 习 这 一 研究 领域 最 初 是 作为 人 工 智能 的 子 学 科 出 现 的 。 而 人 工 智能 则 致力 于 依据 智能 代 
理 "的 经 验 ， 逐步 提高 其 知识 水 平 或 性 能 。 这 个 提高 过 程 通常 涉及 对 环境 中 的 数据 进行 分 
析 和 对 未 知 量 进行 预测 ， 而 这 些 年 机 器 学 习 中 的 数据 分 析 部 分 在 该 领域 发 挥 了 重要 作用 。 
随 着 机 器 学 习 方 法 被 广泛 应 用 ， 机 器 学 习 、 应 用 统计 和 模式 识别 这 些 学 科 变 得 关系 密切 ， 
而 各 学 科 之 间 的 界限 也 变 得 不 那么 明显 了 。 

数据 挖掘 (或 “知识 发 现 和 数据 挖掘 ”"，KDD) 起 初 是 机 器 学 习 的 一 个 分 支 ， 它 在 后 来 的 
发 展 中 仍 与 机 器 学 习 保 持 着 密切 的 关系 。 这 两 个 学 科 不 但 都 涉及 通过 分 析 数 据 来 找到 有 用 
的 或 富 含 信息 的 模式 ， 而 且 它 们 也 共享 很 多 技术 和 算法 。 两 者 的 关系 如 此 密切 ， 以 至 于 研 
究 者 能 够 同时 进行 两 个 领域 的 研究 ， 并 在 两 者 之 间 自如 转换 。 尽 管 如 此 ， 然 而 我 们 仍 需 指 
出 两 者 的 一 些 区 别 。 

一 般 而 言 ， 由 于 机 器 学 习 与 许多 提高 性 能 的 方法 有 关 ， 所 以 它 涵盖 了 一 些 不 属于 KDD 的 
子 领域 ， 如 机 器 人 学 和 计算 机 视觉 。 机 器 学 习 还 涉及 代理 和 认 知 ， 即 智能 代理 如 何 运 用 所 
学 到 的 知识 在 其 所 处 环境 中 进行 推断 和 行动 。 然 而 ， 这 些 并 不 是 数据 挖掘 所 关注 的 。 
历史 上 ，KDD 作为 机 器 学 习 的 一 个 分 支 领域 ， 主 要 研究 现实 世界 的 应 用 场景 中 所 产生 的 
问题 ， 而 十 五 年 后 的 现在 ，KDD 与 现实 应 用 的 联系 反而 比 与 机 器 学 习 的 联系 更 加 密切 。 
在 此 情况 下 ， 对 商业 应 用 和 商业 数据 分 析 问 题 的 研究 也 更 多 地 被 归 为 KDD 的 课题 而 非 机 
器 学 习 的 课题 。KDD 还 越 来 越 倾向 于 关注 数据 分 析 的 整个 流程 ， 如 数据 准备 、 模 型 学 习 
和 模型 评估 等 。 


2.6.6 ”运用 以 上 技术 解决 商业 问题 

为 了 演示 如 何 将 本 章 讲述 的 技术 应 用 在 商业 分 析 中 ， 请 思考 以 下 可 能 遇 到 的 问题 ， 并 想 一 

想 应 该 运用 哪些 技术 回答 这 些 问题 。 这 些 问 题 虽 然 联系 紧密， 但 彼此 之 间 仍 有 细微 区 别 。 

只 有 理解 了 这 些 区 别 ， 才 能 知道 针对 这 些 问 题 应 该 使 用 什么 技术 ， 以 及 在 必要 时 应 该 向 哪 

些 人 咨询 。 

(1) 谁 是 盈利 性 最 高 的 用 户 ? 
如 果 能 根据 现 有 数据 对 “ 熏 利 性 ”进行 明确 定义 ， 那 么 这 就 是 一 个 简单 的 数据 库 查 询问 
题 。 我 们 可 以 使 用 一 个 标准 的 查询 工具 从 数据 库 中 提取 一 组 用 户 记录 。 其 结果 可 以 根据 
累计 交易 额 或 其 他 盈利 性 业务 指标 进行 排序 。 

(2) 盈利 性 用 户 和 普通 用 户 之 间 是 否 真 的 存在 区 别 ? 
这 是 一 个 推断 问题 或 假设 问题 ( 即 假设 “用 给 公司 带 来 的 价值 来 衡量 ， 履 利 性 用 户 和 普 
通用 户 之 间 确 实 存 在 区 别 ”)。 我 们 既 可 以 用 统计 假设 检验 来 证 实 或 推翻 这 个 假设 ， 也 
可 以 用 统计 分 析 来 推导 差异 的 置信 区 间或 其 真实 存在 的 概率 。 其 结果 通常 为 以 下 形式 : 
“ 登 利 性 用 户 的 价值 与 普通 用 户 的 价值 存在 显著 区 别 。 这 个 区 别 由 偶然 因素 导致 的 概率 
INF 5%.” 









































































































































TE 10: 机 器 人 、 智 能 软件 和 机 器 设备 等 。 一 一 译 者 注 
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(3) 这 些 用 户 是 谁 ? 他 们 的 特征 是 什么 ? 


通常 我 们 不 仅 想 列 出 这 些 和 一 利 性 用 户 的 名 单 ， 还 想 找 出 这 些 用 户 的 常见 特征 。 个 体 用 户 
的 特征 或 汇总 统计 量 可 以 通过 数据 库 查 询 技 术 从 数据 库 中 提取 。 但 更 深度 的 分 析 应 该 能 
够 判断 出 哪些 特征 可 以 用 来 区 分 便利 性 用 户 和 非 僵 利 性 用 户 ， 这 就 进入 了 数据 科学 的 范 
畴 一 一 使 用 数据 挖掘 技术 实现 模式 的 自动 发 现 。 接 下 来 的 章节 将 对 此 进行 深入 探讨 。 
(4) 某 位 特定 的 新 用 户 是 否 能 带 来 利润 ? 根据 预期 ， 该 用 户 能 带 来 多 少 收益 ? 
这 些 问 题 可 以 利用 数据 挖掘 技术 ， 通 过 调查 历史 用 户 记录 并 建立 恒利 预测 模型 来 解决 。 
这 样 的 技术 能 够 通过 历史 数据 产生 模型 ， 而 模型 又 能 应 用 于 新 用 户 来 进行 预测 。 这 也 是 
接 下 来 几 章 的 主题 。 
注意 最 后 两 个 数据 挖掘 问题 有 细微 的 区 别 。 第 一 个 是 分 类 问题 ， 可 以 表述 为 “ 某 个 特定 新 
用 户 是 否 能 带 来 恒利 ”( 是 / 否 或 者 其 概率 的 问题 )。 第 二 个 则 可 以 表述 成 “预测 用 户 能 带 
给 公司 的 价值 (数值 )”。 本 书后 面 会 继续 深入 探讨 这 两 个 问题 。 


2.7 ”小结 


数据 挖掘 是 一 门 手 艺 。 像 其 他 手艺 一 样 ， 它 有 一 个 定义 明确 的 流程 ， 有 助 于 更 容易 地 取得 
成 功 。 该 流程 是 面 对 数 据 科学 项 目 时 关键 的 概念 性 思维 工具 ， 后 文 会 反复 提 及 这 个 流程 ， 
并 展示 每 个 数据 科学 基本 概念 如 何 与 它 融 为 一 体 。 反 过 来 ， 对 数据 科学 基本 概念 的 理解 也 
能 大 大 地 提高 那些 借助 了 数据 挖掘 的 企业 的 成 功率 。 


与 数据 科学 相关 的 各 种 研究 领域 发 展 出 了 一 系列 典型 的 数据 科学 任务 ， 如 分 类 、 回 归 和 聚 
类 。 每 种 任务 用 途 不 同 ， 也 各 有 一 套 与 之 关联 的 解决 方案 。 在 着 手 解决 一 个 新 项 目 时 ， 数 
据 科 学 家 通常 先 将 其 分 解 成 一 或 多 个 基本 任务 ， 随 后 逐一 选择 这 些 任务 的 解决 方案 ， 最 后 
再 将 所 有 解决 方案 进行 组 合 。 把 这 个 过 程 做 好 需要 大 量 的 经 验 和 技巧 。 要 想 成 功 开 展 数 据 
挖掘 项 目 ， 就 要 明智 地 在 数据 的 能 力 (如 数据 能 预测 什么 ， 预测 精 度 如 何 ) 和 项 目的 目标 
之 间 保 持平 衡 。 为 此 ， 我 们 需要 牢记 数据 挖掘 结果 的 使 用 方法 ， 并 使 用 它 为 数据 挖 气流 程 
本 身 提 供 指 导 。 

数据 挖掘 与 统计 假设 检验 和 数据 库 查 询 〈 另 有 专门 教材 及 课程 ) 等 重要 的 支持 技术 不 同 ， 
但 又 与 这 些 技术 互补 。 尽 管 数 据 挖掘 与 相关 技术 的 界限 有 时 并 不 明显 ， 但 仍 需 了 解 其 他 技 
术 的 用 途 和 优势 ， 以 确定 何 时 需要 使 用 它们 。 

对 业务 管理 者 而 言 ， 数 据 挖掘 流程 是 一 个 用 于 分 析 数 据 挖掘 项 目 或 提案 的 有 效 框架 。 该 流 
程 可 以 将 分 析 系 统 地 组 织 起 来 ， 其 中 所 包含 的 一 系列 问题 ， 则 可 以 用 来 帮助 检验 项 目 或 者 
提案 是 基于 良好 的 构思 ， 还 是 有 根本 缺陷 。 本 书 会 在 详细 讨论 更 多 的 基本 原理 后 ， 再 回顾 


这 一 部 分 。 




























































































































































































第 3 章 
预测 建 模 导论 ， 从 相关 性 
到 有 此 督 的 划分 





BARS: 富 信息 属性 识别 ; 通过 逐步 属性 选择 划分 数据 
示例 方法 : 相关 性 度量 ; 属性 /变量 选择 ; 树 型 归纳 


前 两 章 概 述 了 模型 和 建 模 的 概念 ， 本 章 将 深入 研究 数据 科学 中 的 一 个 重要 课题 : PLT SE 
模 。 本 章 将 接着 使 用 1.3 节 的 数据 挖掘 示例 。 首 先 本 章 会 把 预测 建 模 视 为 有 监督 的 数据 划 
分 ， 也 就 是 根据 某 个 值得 关注 的 量 ， 将 整个 总 体 划分 为 不 同 的 群 组 。 有 具体 来 讲 ， 就 是 根据 
某 个 希望 预测 或 估计 的 值 对 总 体 进行 分 组 。 预 测 的 目标 可 以 是 某 个 想 避 免 的 事件 ， 比 如 哪 
些 用 户 合约 期 满 时 会 流失 、 哪 些 账户 遭受 了 诈骗 、 哪 些 潜在 用 户 会 无 法 结 清 账户 〈 即 不 良 
贷款 ， 如 电话 账单 或 信用 卡 账单 的 违约 ) 或 哪些 网 页 的 内 容 会 邻 人 不 适 等 ， 预 测 目标 也 可 
以 是 希望 发 生 的 事件 ， 比 如 哪些 用 户 最 可 能 响应 某 个 广告 或 优惠 活动 ， 以 及 哪些 网 页 最 符 
合 某 个 搜索 请 求 。 
在 探讨 有 监督 的 数据 划分 的 过 程 中 ， 本 章 将 引入 数据 挖掘 的 一 条 基础 理念 : 寻找 或 选择 数 
据 所 描述 的 实体 的 重要 且 富 含 信息 CERB) 的 变量 或 “属性 ”。 虽 然 “ 富 信息 ”的 含 
义 要 视 应 用 场景 而 定 ， 但 一 般 而 言 ， 信 息 是 能 够 降低 某 事件 不 确定 性 的 量 。 比 如 ， 假 设 
有 个 老 海盗 把 关于 他 藏 宝地 点 的 信息 告诉 了 我 ， 这 并 不 意味 着 我 确切 地 知道 宝藏 的 所 在 位 
置 ， 而 仅仅 意味 着 对 我 而 言 ， 藏 宝地 点 的 不 确定 性 降低 了 。 而 告诉 我 的 信息 的 质量 越 高 ， 
这 种 不 确定 性 就 越 小 。 
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现在 请 读者 回想 一 下 前 一 章 中 谈 到 的 数据 挖掘 中 “有 监督 ”的 概念 。 进 行 有 监督 的 数据 挖 
掘 的 关键 ， 是 要 有 一 个 想 要 预测 的 或 希望 更 深入 地 理解 的 目标 变量 。 而 该 变量 在 真正 需要 
决策 时 往往 是 未 知 或 不 可 知 的 ， 比 如 某 个 用 户 是 否 会 在 合约 到 期 后 很 快 离开 ， 或 哪个 账户 
遭受 了 欺诈 。 目 标 变 量 能 够 让 我 们 更 清晰 地 了 解 什么 是 “寻找 富 信 息 属性 ”， 即 是 否 存 在 
一 个 或 多 个 能 够 减 小 目标 变量 的 不 确定 性 的 变量 。 同 时 ， 关 于 上 文 所 讨论 的 相关 性 的 一 般 
性 概念 ， 这 里 给 出 了 一 个 常见 的 分 析 型 应 用 : 我 们 希望 找到 与 目标 变量 相关 的 可 知 属性 ， 
以 减 小 该 目标 变量 的 不 确定 性 。 而 仅 是 寻找 这 些 相 关 变 量 的 过 程 本 身 ， 就 有 助 于 更 加 深入 
地 理解 这 个 商业 问题 。 


寻找 富 信 息 属 性 有 助 于 处 理 体 量 日 益 庞大 的 数据 库 和 数据 流 。 当 需要 对 过 于 庞大 的 数据 集 
进行 分 析 时 ， 计 算 将 成 为 一 个 巨大 的 挑战 。 在 分 析 师 缺少 高 性 能 计算 机 的 情况 下 ， 这 个 问 
题 尤为 突出 。 针 对 这 个 问题 ， 一 个 经 过 实践 检验 的 解决 方法 就 是 先 从 数据 集中 选 出 一 个 子 
集 来 分 析 。 而 选择 富 信息 属性 则 为 选择 富 含 信息 的 数据 子 集 提供 了 一 种 “聪明 ”的 办 法 。 
另外 ， 如 果 在 数据 驱动 建 模 前 先 选 择 变量 ， 也 有 助 于 提升 建 模 的 精度 ， 本 书 会 在 第 5 HR 
讨 其 原因 。 

寻找 富 信息 属性 也 是 一 种 被 称 作 树 型 归纳 的 预测 模型 的 基础 。 该 模型 应 用 广泛 ，3.6 aE 
把 它 作为 预测 模型 这 一 基本 概念 的 一 项 应 用 加 以 介绍 。 树 型 归纳 能 通过 一 种 巧妙 的 方式 ， 
即 不 断 重复 选择 富 信息 属性 ， 对 数据 进行 有 监督 的 划分 。 学 完 本 章 ， 你 将 能 够 理解 : 预 
测 建 模 的 基本 概念 、 寻 找 富 信息 属性 的 基本 概念 和 一 项 具体 的 演示 性 实践 技术 、 树 形 结 
构 模 型 的 基本 概念 ， 以 及 从 数据 集中 获取 树 形 结构 模型 的 流程 〈 即 实施 有 监督 的 数据 划 
分 的 过 程 ) 。 


3.1 建 模 、 归 纳 与 预测 


一 般 而 言 ， 模 型 就 是 一 种 为 特定 目的 服务 的 、 简 化 了 的 对 现实 世界 的 表现 。 这 种 简化 往往 
基于 某 些 假设 (也 就 是 对 上 述 特定 目的 而 言 ， 哪 些 问题 重要 ， 哪 些 问题 不 重要 ), 但 有 时 
也 基于 信息 或 处 理 方面 的 限制 。 例 如 ， 地 图 就 是 真实 世界 的 一 个 模型 。 制 图 师 舍 去 了 大 量 
与 地 图 目的 无 关 的 信息 ， 仅 仅 保留 与 其 目的 相关 的 信息 ， 有 了 时 其 至 还 会 进一步 简化 它们 。 
比如 ， 公 路 图 仅 会 保留 和 突出 每 条 公路 、 公 路 的 基本 拓扑 结构 、 公 路 与 旅行 目的 地 的 关 
系 ， 以 及 其 他 相关 信息 。 各 行业 中 都 有 不 同 种 类 的 著名 的 模型 ， 如 建筑 监 图 、 工 程 原型 和 
Black-Scholes 期 权 定 价 模型 等 。 它 们 都 舍弃 了 与 主要 目的 无 关 的 细 市 而 仅 保 留 了 相关 的 
信息 。 

在 数据 科学 中 ， 预 测 模型 是 一 种 用 来 预测 我 们 感 兴趣 的 未 知 值 ( 即 目标 变量 ) 的 公式 。 这 
个 公式 既 可 以 是 数学 表达 式 ， 也 可 以 是 逻辑 表达 式 (如 规则 )， 但 通常 表现 为 两 者 的 混合 
体 。 由 于 我 们 把 有 监督 型 数据 挖 气 分 为 分 类 和 回归 两 大 类 ， 故 而 接 下 来 也 将 分 别 考 虑 分 类 
模型 (以 及 类 概率 估计 模型 ) 和 回归 模型 。 
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术语 : 预测 

通常 ， 预 测 是 指 预报 一 个 未 来 要 发 生 的 事件 ， 而 在 数据 科学 中 ， 其 更 常见 的 
含义 是 估计 一 个 未 知 量 。 该 未 知 量 既 可 以 是 未 来 发 生 的 事件 〈 即 通常 含义 的 
“预测 ”)， 也 可 以 是 当前 或 过 去 发 生 过 的 事件 。 实 际 上 ， 由 于 数据 挖掘 所 处 
理 的 通常 是 历史 数据 ， 所 以 模型 的 建立 和 验证 往往 也 是 基于 历史 事件 的 。 例 
如 ， 信 用 评分 的 预测 模型 估计 的 是 沫 在 的 用 户 违约 〈 即 产生 不 良 贷款 ) 风 
险 ， 垃 圾 邮件 过 滤 预 测 模型 估计 的 是 某 封 邮件 是 否 为 垃圾 邮件 ， 欺诈 检 测 的 
预测 模型 判断 的 则 是 某 个 账户 是 否 遭 受 了 欺诈 。 关 键 在 于 ， 预 测 模型 所 估计 
的 是 某 个 未 知 量 。 







































































这 样 看 来 ， 预 测 建 模 与 描述 建 模 截然 不 同 。 后 者 的 主要 目的 不 是 估计 某 个 值 ， 而 是 试图 了 
解 某 个 现象 或 过 程 背 后 的 本 质 。 比 如 ， 用 户 流失 行为 的 描述 模型 可 以 告诉 我 们 ,流失 的 用 
户 具 有 哪些 典型 特征 。 在 某 种 程度 上 ， 描 述 模型 的 评估 标准 是 其 可 理解 性 ， 我 们 可 能 倾 
向 于 选择 一 个 精度 不 够 高 ， 但 比较 好 理解 的 模型 。 而 对 于 预测 模型 而 言 ， 可 理解 性 固然 很 
重要 ， 但 其 评估 标准 却 是 预测 能 力 。 这 两 种 模型 的 区 别 并 没有 以 上 所 说 的 那么 严格 : 它们 
会 共用 茶 些 技术 ， 而 且 一 个 模型 通常 可 以 兼顾 预测 和 描述 两 个 目的 (尽管 有 时 效果 欠 佳 )。 
有 时 候 ， 预 测 模型 的 价值 不 在 于 预测 结果 本 身 ， 而 主要 在 于 观察 预测 模型 时 所 获得 的 对 问 
题 的 理解 。 


在 深入 讨论 预测 模型 之 前 ， 有 必要 先 引 入 一 些 术语 。 有 监督 学 习 是 一 个 建立 模型 的 过 程 ， 
该 模型 描述 了 一 系列 所 选 变量 (属性 或 特征 ) 和 一 个 预先 确定 的 变量 (目标 变量 ) 之 间 的 
关系 。 预 测 模型 就 像 是 特征 变量 的 函数 (一般 是 概率 函数 )， 被 用 来 估计 目标 变量 的 值 。 
因此 ， 在 用 户 流失 预测 问题 中 ， 可 以 建立 一 个 用 户 流失 倾向 模型 ， 即 一 个 函数 。 其 自 变量 
可 以 是 用 户 账户 的 属性 ， 如 年 龄 、 收 入 、 就 业 时 间 、 呼 叫 客服 次 数 、 超 额 费用 、 用 户 地 理 
分 布 、 数 据 使 用 量 ， 等 等 。 


图 3-1 通过 展示 一 个 极 简 的 信贷 不 良 贷 款 预测 示例 ， 阐 释 了 刚刚 介绍 的 一 些 术 语 。 一 个 实 
例 或 示例 表示 一 个 事件 或 一 个 数据 点 ， 在 此 例 中 即 为 一 个 曾 被 发 放 信贷 的 历史 用 户 ， 在 数 
据 库 或 电子 表格 中 这 也 被 称 为 一 行 。 一 个 实例 由 一 系列 属性 (又 称 域 、 列 、 变 量 或 特征 ) 
所 描述 。 因 为 它 可 以 表示 为 一 组 长 度 固定 且 有 序 的 特征 值 (向 量 )， 所 以 有 时 候 实 例 也 被 
称 为 特征 向 量 。 除 非特 别 声明 ， 否 则 本 书 将 默认 数据 中 所 有 属性 都 有 相应 的 值 (目标 变量 
除外 )。 




























































































注 1: 描述 建 模 通常 用 来 帮助 人 们 理解 数据 产生 过 程 中 的 因果 关系 (如 : 用户 为 什么 流失 )。 
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属性 目标 属性 


EES 
DITA 





这 是 一 行 (一 个 实例 ) 
特征 向 量 是 : <CLaudio,115 000,40, f> 
类 标签 〈 目 标 属 性 值 ) 为 否 














31: 有 监督 分 类 问题 的 数据 挖掘 术语 。 一 个 问题 之 所 以 是 “有 监督 ”的 ， 是 因为 该 问题 中 含有 一 
个 目标 变量 ， 以 及 一 些 目标 变量 值 已 知 的 “训练 ”数据 。 它 之 所 以 是 一 个 分 类 问题 (而 非 回 
归 问 题 )， 是 因为 其 目标 变量 是 类 别 型 的 (是 或 否 ) 而 非 数值 型 的 





一 物 多 名 


历史 上 ， 由 于 许多 不 同 领域 (包括 机 器 学 习 、 模 式 识别 、 统 计 学 和 数据 库 等 ) 都 对 数 
据 科 学 的 原理 和 技术 进行 了 研究 ， 所 以 数据 科学 中 的 同一 个 概念 往往 具有 多 个 名 称 。 
人 们 常 说 的 数据 集 ， 其 形式 与 数据 库 中 的 表 和 电子 制 表 软件 中 的 工作 表 是 一 致 的 。 数 
据 集 包含 一 系列 示例 或 实例 ， 而 实例 既是 数据 库 中 的 表 里 的 行 ， 也 是 统计 学 中 的 案例 。 


特征 ( 即 表 中 的 列 ) 也 有 许多 不 同 的 名 称 ; 在 统计 学 中 ， 作 为 输入 ， 属 性 被 称 为 独立 
变量 或 预测 变量 ， 在 运筹 学 研究 中 则 叫 作 解释 变量 ; 目标 变量 ， 因 为 其 值 需 要 被 预测 ， 
所 以 在 统计 学 中 常 被 称 为 依赖 变量 。 这 种 命名 方式 很 容易 造成 混 消 ， 因 为 独立 变量 不 
一 定 相互 独立 (或 与 其 他 元 素 独 立 ) ， 而 依赖 变量 也 不 一 定 总 是 依赖 于 所 有 的 独立 变 
量 。 因 此 ， 本 书 回避 了 这 种 命名 方式 。 一 些 专家 认为 目标 变量 也 属于 特征 ， 另 一 些 人 
则 不 这 么 认为 。 但 有 一 点 显然 非常 重要 : 目标 变量 不 能 用 来 预测 它 自己 。 不 过 预先 给 
定 的 目标 变量 的 值 ， 会 对 预测 未 来 的 目标 变量 有 巨大 的 帮助 ， 因 此 这 些 预先 值 也 可 以 
被 视 作 特征 。 

















根据 数据 建立 模型 的 过 程 也 叫 模型 归纳 。 归 纳 是 一 个 哲学 术语 ， 表 示 将 具体 案例 推广 为 一 
般 性 规则 (或 规律 、 真 理 )。 既 然 模 型 就 是 统计 意义 上 的 一 般 性 规则 (一 般 来 说 ， 它 们 并 
JE 100% 正确 ， 有 时 其 正确 率 很 低 ) ， 那 么 根据 数据 进行 建 模 的 程序 就 叫 作 归纳 算法 或 学 习 
器 。 大 多 数 归纳 过 程 被 转化 为 分 类 模型 或 回归 模型 。 不 过 由 于 分 类 在 统计 学 的 其 他 领域 中 
被 讨论 得 较 少 ， 而 它 又 与 许多 商业 问题 密切 相关 (因此 数据 科学 中 的 许多 工作 都 聚焦 于 分 
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类 ) ， 所 以 后 文 将 主要 讨论 分 类 问题 。 

术语 : 归纳 和 演绎 

与 归纳 相对 的 概念 叫 作 演 绎 。 演 绎 可 以 从 一 般 性 规律 和 具体 事实 出 发 ， 推 演 
出 其 他 具体 事实 。 使 用 模型 的 过 程 就 是 一 个 (概率 ) 演绎 过 程 。 本 书 将 很 快 
讲 到 这 一 点 。 





























归纳 算法 所 输入 的 数据 被 称 作 训 练 数 据 ， 可 以 用 来 归纳 出 模型 。 第 2 章 中 提 到 过 ， 由 于 训 
练 数据 中 的 目标 变量 ( 即 标 签 ) 的 值 已 知 ， 所 以 训练 数据 也 叫 标注 数据 。 


现在 回 到 用 户 流失 示例 中 。 根 据 在 第 1 章 和 第 2 章 学 到 的 知识 ， 在 建 模 环节 我 们 可 能 会 想 
建立 一 个 “有 监督 的 划分 ”的 模型 ， 依 据 合约 期 满 后 流失 (平均 ) 概率 高 低 ， 把 样本 数据 
划分 为 两 部 分 。 至 于 如 何 做 到 这 一 点 ， 请 读者 思考 本 书 的 基本 概念 之 一 : 如 何 选择 出 一 个 
或 者 多 个 属性 /特征 /变量 作为 依据 ， 尽 可 能 地 把 样本 数据 按照 我 们 感 兴趣 的 目标 变量 进 
行 划 分 ? 


3.2 有 监督 的 划分 


预测 模型 主要 用 来 估计 我 们 关心 的 目标 变量 的 值 。 用 有 监督 方法 获取 数据 中 所 含 模式 最 直 
观 的 方法 ， 就 是 尝试 把 总 体 划 分 成 目标 变量 值 不 同 的 子 群 (同时 让 子 群 内 的 目标 变量 值 相 
近 )。 如 果 在 目标 变量 值 未 知 时 ， 能 知道 用 哪些 变量 值 来 做 上 述 数 据 集 划 分 ， 那 么 这 样 的 
划分 就 可 以 用 来 预测 目标 变量 值 。 而 且 ， 这 样 的 划分 还 能 提供 一 系列 很 好 理解 的 划分 模 
式 。 举 例 说 明 :“ 居 住 在 纽约 市 的 中 年 专业 人 士 的 平均 用 户 流失 率 为 5%”， 其 中 “居住 在 
纽约 市 的 中 年 专业 人 士 ” 是 划分 的 标准 (表示 某 些 特定 属性 ),“ 流 失 率 为 5%” 则 是 该 划 
分 中 目标 变量 的 预测 值 。? 

问题 中 有 很 多 属性 ， 却 不 确定 如 何 划分 数据 时 ， 我 们 往往 会 倾向 于 应 用 数据 挖掘 。 在 用 
户 流失 的 预测 问题 中 ， 用 来 预测 流失 倾向 的 最 佳 划分 是 未 知 的 。 假 如 数据 中 真 的 有 某 种 划 
分 方法 ， 能 将 目标 变量 划分 为 〈 平 均值 ) 明显 不 同 的 几 类 ， 我 们 就 需要 找到 自动 获取 这 种 
划分 方法 的 办 法 。 


这 就 引出 了 本 书 的 基本 概念 :如何 判断 某 变 量 是 否 包含 关于 目标 变量 的 重要 信息 ?如 果 包 
含 ， 那 么 信息 量 有 多 大 ?我 们 希望 能 自动 选择 和 手头 任务 有 关 的 、 信 息 量 更 大 的 变量 ( 换 
言 之 ， 即 预测 目标 变量 值 )。 更 进一步 ， 我 们 其 至 希望 可 以 按照 预测 目标 变量 的 准确 程度 
对 这 些 变 量 进行 排序 。 

现在 ， 本 书 仅 考 虑 如 何 选 择 信息 量 最 大 的 那个 富 信息 属性 。 本 书 将 通过 解决 这 个 问题 来 介 
绍 第 一 项 具体 的 数据 挖掘 技术 。 该 技术 虽然 简单 ， 却 易于 扩展 且 非 常 有 用 。 在 用 户 流失 示 
例 中 ， 关 于 未 来 总 体 中 的 用 户 流失 率 ， 哪 个 变量 提供 的 信息 最 多 ?专业 人 士 的 身份 ? 年 
龄 ?住所 ? 收入 ? 向 客服 投诉 的 次 数 ? 还 是 超额 费用 数额 ? 
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注 2: 接 下 来 本 书 将 讲 到 ， 有 多 种 基于 数据 的 方式 可 用 来 预测 目标 变量 值 ， 而 现在 读者 可 以 先 大 致 把 它 视 为 
训练 数据 集中 划分 到 每 个 分 组 的 某 种 平均 值 。 
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接 下 来 ， 本 书 将 仔细 研究 一 种 选择 富 信息 属性 的 有 效 方法 。 在 此 之 后 本 书 会 展示 如 何 通过 
重复 地 使 用 该 技术 来 构建 有 监督 的 数据 划分 。 尽 管 直 接 使 用 多 个 变量 进行 有 监督 划分 的 方 
法 非常 有 用 且 易 于 理解 ， 但 请 记 住 ， 它 仅 是 选择 富 信息 变量 这 个 基本 观点 的 一 种 应 用 而 
已 。 而 这 个 概念 应 该 成 为 一 项 理论 工具 ， 以 便于 在 更 加 广泛 的 层面 上 思考 数据 科学 。 比 
如 ， 之 后 本 书 会 逐步 研究 其 他 建 模 方法 ， 而 这 些 方法 中 并 不 直接 包含 变量 选择 。 当 你 面 对 
的 数据 集 包 含 极 多 的 属性 时 ， 不 妨 回顾 并 应 用 这 条 极其 有 用 的 概念 来 选 出 一 个 富 信息 属性 
子 集 。 这 样 做 不 仅 可 以 将 庞大 笨重 的 数据 集 大 幅 度 缩小 ， 而 且 我 们 往往 会 发 现 ， 从 中 生成 
的 模型 的 精度 会 随 之 显著 提高 。 


3.2.1 选取 富 信 息 属 性 


如 果 给 定 一 个 大 的 示例 集 ， 那 么 应 该 如 何 选择 一 个 属性 ， 使 得 依据 它 进行 划分 之 后 ， 数 
据 集 所 含 的 信息 量 最 大 呢 ? 思考 一 个 具体 的 二 元 〈 两 类 ) 分 类 问题 ， 想 一 想 从 中 能 够 得 
出 什么 。 在 如 图 3-2 所 示 的 简单 的 数据 划分 问题 中 ， 图 中 的 12 个 火柴 人 脑袋 有 两 种 形状 
(方形 和 圆 形 ) ， 而 他 们 的 身体 不 仅 有 两 种 形状 (长 方形 和 椭圆 形 )， 还 有 两 种 颜色 (灰色 
和 白色 )。 








































































































图 3-2: 图 中 所 展示 的 是 一 群 需要 分 类 的 人 。 他 们 头顶 的 标签 为 目标 变量 值 ( 是 否 有 不 良 贷款 )， 而 
他 们 身体 或 脑袋 的 颜色 和 形状 则 代表 不 同 的 预测 变量 属性 


我 们 将 用 以 上 这 些 属 性 来 描述 这 些 人 。 他 们 头顶 上 的 二 元 (是 或 否 ) 标签 表示 此 人 是 否 有 
不 良 贷款 。 我 们 可 以 像 下 面 这 样 描述 有 关 这 群 人 的 数据 。 
。 属性 

— 脑袋 形状 : 方形 / 圆 形 

一 身体 形状 : 长 方形 /椭圆 形 

- 身体 颜色 : 灰色 /白色 

目标 变量 

- 是 否 有 不 良 贷款 : 是 / 否 
试问 : 哪个 属性 能 最 明确 地 把 这 些 人 中 有 不 良 贷款 的 和 无 不 良 贷款 的 划分 开 ? 我 们 想 在 结 
果 中 看 到 尽 可 能 纯 的 分 组 。 这 里 的 纯 是 指 目标 变量 值 的 同 质 性 。 如 采 一 个 组 内 所 有 成 员 的 
目标 变量 值 都 相同 ， 那 么 该 分 组 就 是 纯 的 ， 如 果 组 内 至 少 有 一 个 成 员 的 目标 变量 值 与 其 他 
成 员 不 同 ， 那 么 该 分 组 就 是 不 纯 的 。 


可 惜 在 现实 中 极 少 能 找到 能 把 数据 划分 得 绝对 纯 的 变量 。 但 是 ， 只 要 能 显著 降低 分 组 的 不 
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纯度 ， 就 可 以 对 数据 (以 及 与 之 对 应 的 总 体 ) 多 一 分 了 解 。 而 对 于 本 章 而 言 ， 更 重要 的 是 
我 们 还 能 将 该 属性 应 用 于 预测 模型 ， 比 如 在 该 示例 中 ， 我 们 需要 预测 其 中 一 组 出 现 不 良 贷 
款 的 可 能 性 与 另 一 组 相 比 就 高 熟 低 。 如 果 可 以 做 到 这 一 点 ， 我 们 就 可 以 为 预测 结果 中 产生 
不 良 贷款 可 能 性 低 的 用 户 提供 信用 贷款 ， 或 根据 用 户 产 生 不 良 贷款 的 可 能 性 大 小 来 给 他 们 
提供 不 同 额 度 的 信用 贷款 。 


从 技术 角度 来 看 ， 分 类 问题 有 儿 个 复杂 之 处 。 


(1) 我 们 很 难 根据 各 种 属性 将 数据 集 完 美 地 划分 开 来 。 即 便 有 一 个 子 组 碰巧 是 纯 的 ， 其 他 的 
也 未 必 纯 。 比 如 ,假设 图 3-2 中 的 第 二 个 人 不 存在 ， 那 么 身体 颜色 = 灰色 这 个 部 分 就 是 
纯 的 (是否 有 不 良 贷款 = 否 ) ， 但 随 之 产生 的 另 一 个 部 分 身体 颜色 = 白色 ， 却 仍 不 纯 。 


(2) 在 上 一 个 例子 中 ， 条 件 身体 颜色 = 灰色 通过 去 掉 一 个 数据 点 而 分 出 了 纯 子 集 。 倘 车 存在 
另 一 种 划分 方式 ， 不 产生 任何 纯 子 集 ， 却 能 更 广泛 地 降低 各 个 子 集 的 不 纯度 ， 那 么 这 两 
PED AULA? 

3) 不 是 所 有 属性 都 是 二 元 的 ， 有 的 属性 存在 三 个 或 更 多 不 同 的 值 。 必 须 考 虑 到 : 某 个 属性 
可 以 将 数据 集 分 为 两 个 子 集 ， 而 另 一 个 属性 则 可 能 将 数据 集 分 为 三 个 甚至 七 个 子 集 。 这 
样 一 来 ， 我 们 如 何 比较 这 些 子 集 呢 ? 

(4) 某 些 属性 是 数值 型 的 (连续 的 或 整数 的 )。 那 么 对 每 个 数值 都 进行 划分 是 否 有 意义 ? 
(答案 是 否定 的 。) 这 种 情况 下 ， 要 如 何 对 数值 型 属性 进行 有 监督 的 划分 ? 

幸运 的 是 ， 对 于 分 类 问题 而 言 ， 我 们 可 以 通过 一 个 公式 来 解决 上 述 所 有 问题 。 该 公式 可 以 

用 于 测量 基于 每 个 属性 所 进行 的 划分 的 好 坏 程 度 (对 特定 目标 变量 而 言 )。 这 个 公式 的 功 

能 称 作 纯度 测量 。 

最 常见 的 划分 数据 的 指标 被 称 为 信息 增益 ， 它 基于 一 个 被 称 作 蚁 的 纯度 测量 指标 。 以 上 两 个 

概念 皆 由 信息 论 先驱 Claude Shannon 首创 ， 其 作品 在 该 领域 具有 开创 性 地 位 (Shannon, 1948)。 

炉 可 以 用 于 测量 集合 中 的 无 序 程度 ， 见 上 文 例子 中 的 个 体 的 划分 问题 。 试 想 ， 一 个 集合 中 

的 各 个 成 员 具有 一 组 性 质 ， 每 个 成 员 有 且 只 有 这 组 性 质 中 的 一 种 。 在 有 监督 的 划分 中 ， 成 

员 的 性 质 就 相当 于 目标 变量 的 值 。 混 乱 则 指 的 是 某 个 分 组 中 这 些 性 质 的 混合 (或 不 纯 ) 程 

度 。 所 以 ， 打 个 比方 ， 一 个 混合 了 许多 有 不 良 贷 款 者 和 无 不 良 贷 款 者 的 分 组 就 具有 和 较 高 的 

RME. 

POR CE, ME Sa. 

公式 3-1: 六 































































































Ii = —p, log (pı) — pp log (P) -+7 


其 中 , p 是 集合 中 性 质 i 的 概率 (相对 百分比 )， 其 取 值 范围 是 0 到 1 (1 表示 集合 中 所 有 
成 员 都 有 性 质 i，0 则 表示 所 有 成 员 都 没有 性 质 i) 。 省 上 略 号 仅 表 示 性 质 可 能 多 于 两 个 (在 技 
术 领 域 中 ， 通常 取 2 作为 对 数 的 底 )。 
炉 的 公式 本 身 可 能 不 太 直 观 ， 因 此 难以 理解 。 图 3-3 展示 了 一 个 测量 粹 的 例子 ， 其 中 每 个 
集合 包含 10 个 二 元 分 类 (“+” 和 “-”) 实例 。 从 中 可 以 看 出 ， 从 0 到 1， 灼 值 测量 的 
是 集合 的 整体 混乱 程度 。 其 中 0 代表 最 小 的 混乱 程度 (集合 中 所 有 个 体 的 性 质 相同 )， 而 
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1 代表 最 大 的 混乱 程度 ( 即 不 同 的 性 质 均 义 地 混合 )。 由 于 这 是 二 元 分 类 ， 因 此 p= 1 -po 

从 左下 角 全 为 “-” 的 集合 看 起 ， 该 集合 满足 p, = 0， 混 乱 程 度 达到 最 小 〈 极 纯 ) MEA 

0。 当 开始 把 集合 中 个 体 的 类 标签 从 “-” 转 换 为 “+” 时 ， 灶 值 也 随 之 增加 了 。 当 集合 中 

的 个 体 的 类 别 分 布 均衡 ( 即 “+” “- ”各 5 个 ) I, MEGA BA, X p, = p= 0.5。 随 

BES Wh te ERR, “+” Fa BB, UCI i). BTA ARB “+” FRY, 
=1, (iE GAB) T ME 0。 
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图 3-3: ITRE p(+) 的 函数 表示 
举 一 个 具体 例子 ， 试 想 ， 集 合 S 中 有 10 个 人 ， 其 中 包含 7 个 无 不 良 贷款 者 和 3 个 有 不 良 
BRA, IA: 
p (AR RIK) = 7/10 = 0.7 
p (有 不 良 贷款 ) = 3/10 = 0.3 
RICS) = [0.7 x log, (0.7) + 0.3 x log, (0.3)] 


~ [0.7 x (-0.51)+ 0.3 (-1.74)] 
~ 0.88 
MELIE RENEE — aba, 我们 想 要 知道 的 是 如 何 测 量 属 性 的 (关于 目标 变 


量 的 ) 信息 量 ， 即 该 属性 能 给 (关于 目标 变量 的 ) 信息 量 带 来 多 少 提 升 。 一 个 属性 可 以 将 
一 个 实例 集合 划分 为 几 个 子 集 ， 而 灶 却 只 能 告诉 我 们 单个 子 集 的 不 纯度 。 幸 和 运 的 是 ， 在 用 


























WW ak FEE — PS GEL Pe EE LE, ATE aim (IG) 这 一 概念 ， 并 用 它 来 测 





量 一 个 属性 
益 














(在 依据 其 所 做 出 的 划分 中 ) ORR 〈 降 低 ) 的 影响 。 严 格 地 讲 ， 信 息 增 








益 测 量 的 是 加 入 新 信息 后 粒 值 的 改变 ;而 在 有 监督 的 划分 的 情形 中 ， 我 们 考虑 的 却 是 根据 
单一 属性 对 数据 集 进行 划分 后 的 信息 增益 。 假 设 用 于 划分 的 属性 有 大 个 不 同 的 值 ， 记 原 集 





RARE, I 








XA at Bl k SER. MASARA, Tee ES ek ii ee RIT RR PRB 








该 属性 提供 了 多 少 信息 量 ?这 取决 于 子 集 的 纯度 相对 于 父 集 提高 了 多 少 。 在 预测 模型 的 语 





境 下 讲 ， 就 是 如果 知 道 了 一 个 属性 的 值 ， 那 么 这 个 信息 能 在 多 大 程度 上 提高 对 目标 变量 


值 的 认识 ? 
































信息 增益 的 明确 定义 如 下 。 


公式 3-2: 信 


息 增 益 


IG LEE, FER) = MOAR) — pl) xR) + ple) x MBC.) +++] 


显然 ， 每 个 子 集 (c) WOU HE TRPE SE BILE Bl p(c)。 这 对 上 文 的 问题 做 











了 回答 : 与 其 去 除 一 个 实例 以 制造 一 个 纯 子 集 ， 不 如 把 父 集 分 为 两 个 比较 大 的 、 相 对 较 纯 
的 子 集 一 一 哪怕 这 两 个 子 集 都 不 纯 。 











图 3-4 展示 了 


一 个 二 元 分 类 问题 (@ 和 友 )。 以 之 为 例 ， 图 中 的 子 集 看 起 来 显然 比 父 集 更 





“SH”, RRP EA 30 个 实例 ,包括 16 个“@” 和 14 个 “ 克 ”"， 所 以 : 


RICT) = -[ p(e) xlog, p(。)+p( 太 )xlog, p( 太 )] 
~ -[0.53 x (-0.9) + 0.47 x (-1.1)] 
= 0.994 EH AE) 


AM FARA : 


IRI OUK PAR Ail < 575) = -[p(°) x log, p(+) + pO) x log, p( 太 )] 
~ [0.92 x (0.12) + 0.08 x (-3.7)] 
~ 0.39 








TA UF SEI : 





IIOP AR il = 57D) = -[p() x log, p(*) + pO) x log, p(*)] 
= [0.24 x (—2.1) + 0.76 x (—0.39)] 
= 0.79 





IG = RE) — [pk PA Bil < 57D) x IK PAR il < 57) 
+ pik PA Ail = SA) x WGK PAS Bil = 575)] 
~ 0.99 -[0.43 x 0.39 + 0.57 x0.79] 
~ 0.37 
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因此 该 划分 能 大 幅 隆 低 米 。 用 预测 模型 的 术语 说 ,该 属性 提供 了 大 量 有 关 目 标 变 量 f 


信息 。 





整个 总 体 (30 个 实例 ) 







p( @) = 16/30 = 0.53 
p(y) = 14/30 = 0.47 


账户 余额 <5 万 账户 余额 宇 5 万 


p(®@)=417~0.24 
P(e) = 13/17 = 0.76 


pl @ )= 12/13 = 0.92 
PUfy) = 1/13 = 0.08 











图 3-4: 根据 (账户 余额 ) 账户 余额 是 否 少 于 5 万 ， 将 “有 不 良 贷款 ”样本 的 数据 分 为 两 组 
再 举 一 个 例子 。 图 3-5 候选 人 分 类 示例 中 的 父 集 与 图 3-4 中 的 相同 ， 但 现在 我 们 考虑 的 是 
按 “ 居 住 方式 ”将 数据 集 分 为 三 类 : AA, Ph. TER ao T : 

Ii R) = 0.99 
(居住 方式 = 自 有 ) = 0.54 
i OED = F) = 0.97 
Wi OR FETTER = 其他) = 0.98 

IG x 0.13 

变量 “居住 方式 ”的 信息 增益 虽然 的 确 为 正 ， 但 比 变量 “账户 余额 ”的 信息 增益 要 低 。 直 
观 地 看 ， 这 是 因为 ， BATE CAA” SIR TR, (LOD “PR” A “EE 
他 ”的 纯度 却 较 父 集 有 所 下 降 。 因 此 基于 这 些 数据 ， 变 量 “ 居 住 方式 ” 比 “ 账 户 余额 ”所 


含 的 信息 量 要 少 。 
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整个 总 体 〈30 个 实例 ) 





























居住 方式 = 自 有 居住 方式 = 租赁 居住 方式 = 其 他 























p( @)=7/8 = 0.88 p(@)=4/10=0.4 p( @)=5/12 = 0.42 
p(y) = 8 = 0.12 (ty) = 6/10 = 0.6 (fy) = 7/12 = 0.58 








图 3-5: 根据 三 值 属 性 “居住 方式 ”产生 的 分 类 树 


我 们 在 前 文中 对 分 类 问题 进行 有 监督 的 划分 的 所 有 担心 ， 都 随 着 信息 增益 的 出 现 而 化 解 。 
信息 增益 不 追求 绝对 的 纯度 ， 而 且 可 以 应 用 在 子 集 为 任意 数量 的 问题 上 。 它 还 考虑 到 了 子 
集 的 相对 规模 问题 ， 给 予 了 规模 较 大 的 子 集 相对 较 大 的 权重 。? 

数值 型 变量 

我 们 还 未 讨论 如 何 处 理 数值 型 的 属性 。 我 们 可 以 将 数值 型 变量 “离散 化 ”， 
即 选 择 一 个 (或 多 个 ) 划分 点 划分 数值 ， 然 后 将 划分 后 的 结果 作为 一 个 类 别 
型 变量 的 问题 来 处 理 。 例 如 ， 收 入 可 以 被 划分 成 两 个 或 多 个 区 间 。 我 们 可 以 

用 信息 增益 来 测量 数值 型 变量 离散 化 后 的 划分 结果 。 不 过 ， 如 何 选择 数值 
型 属性 离散 化 的 划分 点 的 问题 尚未 解决 。 理 论 上 ， 可 以 尝试 所 有 合理 的 划分 
点 ， 最 终 选 出 信息 增益 最 大 的 一 个 点 。 
























































注 3: 严格 来 讲 ， 这 里 仍 有 一 个 问题 ， 当 用 于 划分 的 属性 含有 很 多 不 同 值 的 时 候 ， 可 能 会 出 现 某 种 划分 方法 
的 信息 增益 很 大 但 预测 效果 却 很 差 的 情况 。 这 个 问题 (“过 拟 合 ” 问 题 ) 是 第 5 章 的 主题 。 
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最 后 ， 如 何 对 回归 问题 进行 有 监督 的 划分 呢 ? 这 个 类 型 的 问题 的 目标 变量 可 是 数值 型 的 ! 
虽然 我 们 仍然 需要 关注 如 何 降低 子 集 的 不 纯度 ， 但 信息 增益 这 个 测量 指标 已 不 适用 于 这 种 
情况 。 这 是 因为 它 是 基于 炳 得 出 的 ， 即 根据 不 同性 质 在 划分 结果 中 的 分 布 计算 出 的 。 因 
此 ， 需 要 寻找 一 个 能 够 度量 子 集中 数值 型 变量 的 纯度 的 方法 。 
方差 就 是 一 个 专门 用 来 衡量 数值 型 变量 不 纯度 的 指标 。 本 书 在 此 省 略 对 这 个 指标 的 算法 的 
推导 ， 读 者 目前 只 需 记 住 ， 这 个 基本 概念 非常 重要 。 如 果子 集 内 所 有 个 体 的 目标 变量 值 
都 相同 ， 那 么 该 子 集 就 是 纯 的 ， 这 时 方差 为 零 ， 如 果子 集 内 所 有 个 体 的 目标 变量 值 差别 
很 大 ， 那 么 该 子 集 的 方差 就 会 非常 高 。 我 们 可 以 把 父 集 和 子 集 的 方差 的 减少 量 当 作 一 个 
类 似 于 信息 增益 的 指标 来 使 用 ， 这 个 处 理 过 程 完全 可 以 类 比 上 文中 信息 增益 的 推导 过 程 。 
给 定 一 个 数值 型 目标 变量 ， 其 最 佳 划分 应 使 得 加 权 平 均 方差 减 小 的 幅度 最 大 。 这 其 实意 
味 着 我 们 仍 需 要 找到 与 目标 变量 关系 最 密切 的 变量 ， 换 句 话 说 ， 也 就 是 要 找到 最 具 预 测 


性 的 变量 。 


3.2.2 示例 : 基于 信息 增益 进行 属性 选择 

现在 我 们 做 好 了 准备 ， 可 以 应 用 第 一 项 具体 的 数据 挖掘 技术 了 。 一 个 数据 集 之 中 的 每 个 
实例 都 由 若干 属 性 和 一 个 目标 变量 描述 ， 我 们 可 以 判断 哪个 属性 对 于 准确 估计 目标 变量 
值 而 言 是 信息 量 最 大 的 (将 在 下 文中 深入 探讨 )。 我 们 还 可 以 根据 这 种 信息 量 ， 尤 其 是 根 
据 它们 的 信息 增益 ， 对 属性 进行 排序 。 因 此 它 不 仅 有 助 于 更 好 地 理解 数据 ， 或 者 预测 目 
标 变 量 ， 还 有 助 于 在 不 想 或 无 法 处 理 全 部 数据 集 的 时 候 ， 选 出 一 组 属性 以 减 小 数据 集 的 
规模 。 

为 了 演示 信息 增益 的 用 法 ， 本 章 将 使 用 一 个 简单 但 真实 的 数据 集 。 它 来 自 加 州 大 学 欧文 分 
校 机 器 学 习 数 据 仓 库 “。 该 数据 集 取 自 “The Audubon Society Field Guide to North American 
Mushrooms”, EREE Sel eae ASE. KARAT : 


GRA RMR SWRI (F500 ~ 525 页 ) 的 23 种 全 菌 假 定 样本 。 每 
个 品种 都 被 定义 为 “确定 可 食用 ” “确定 有 毒 ”“ 可 食性 未 知 ” 或 “不 推荐 食用 ”。 
最 后 一 种 定义 可 以 视 为 有 毒 。 该 指南 明确 表示 ， 关 于 蘑菇 可 食性 的 判断 ， 并 不 存 
在 像 毒 橡树 和 毒 常春 蕨 那样 “三 出 复 叶 ， 勿 食 勿 动 ”的 简单 规则 。 


每 个 数据 点 (实例 ) 都 代表 一 个 蘑菇 样本 ， 每 个 样本 都 由 其 可 观察 到 的 属性 (或 称 特征 ) 
进行 描述 。 表 3-1 列举 了 20 余 个 属性 及 属性 值 。 每 个 实例 中 每 个 属性 仅 取 一 个 值 ， 如 菌 裙 
颜色 = 黑 。 我 们 选取 了 数据 集中 的 5644 个 实例 ， 其 中 包含 了 2156 种 毒 蘑菇 和 3488 种 可 
RHE. 

这 是 一 个 分 类 问题 。 这 是 因为 存在 目标 变量 可 食性 ， 而 其 取 值 为 是 (可 食用 ) 或 否 (有 
毒 ) 两 类 。 在 训练 数据 集中 ， 每 一 行 的 目标 变量 都 有 一 个 值 。 我 们 将 用 信息 增益 来 回答 
“哪个 属性 能 最 好 地 区 分 蘑菇 的 可 食性 〈 可 食性 = 是 或 可 食性 = 否 )”。 这 是 一 个 基本 的 属 
性 选择 问题 ， 在 规模 更 大 的 问题 中 ， 可 能 需要 从 成 百 上 千 的 属性 中 选 出 最 有 用 的 10 个 或 
50 个 属性 。 这 么 做 是 因为 ， 对 于 某 些 数据 挖掘 问题 来 说 这 些 属 性 数目 太 多 ， 或 其 中 无 用 的 
属性 太 多。 为 了 简化 ， 我 们 只 选择 一 个 而 非 10 个 最 有 用 的 属性 。 
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TE 4: 详 见 加 州 大 学 欧文 分 校 的 机 器 学 习 仓库 网 页 。 
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3-1: 蘑菇 数 据 集 的 属性 



























































































































































































































































































































































属性 名 称 可 能 取 的 值 

菌 盖 形状 SE. AHJ, GJE, FRÆ, AERE, Me 

HTE 纤维 状 、 带 凹 槽 、 带 鳞片 、 光 滑 

菌 盖 颜 色 棕色 、 浅 黄色 、 浅 黄 神色、 灰色、 绿色 、 粉 色 、 紫 色 、 红 色 、 和 白色、 黄色 

是 否 有 斑点 有 、 无 

气味 AER, HER, RER, HAER, JARIR, Ek, TR, ATR, Pk 

菌 裙 与 菌 柄 连接 方式 HÆ., EAE, BE, FE 

菌 初 间隔 Awe HG. Bow 

菌 初 尺寸 ti, 78 

菌 裙 颜 色 Bf, we, RRE, DEDE, KE, ae, BE, bE, Ae A6, 
色 、 黄 色 

菌 柄 形状 上 细 下 粗 、 上 粗 下 细 

Am 球状 、 棒 状 、 杯 状 、 等 粗 、 根 状 、 具 根 、 无 根 

蘑菇 圈 以 上 的 菌 柄 表面 ”纤维 状 、 带 鳞片 、 履 有 丝 状 软 毛 、 光 滑 

蘑菇 圈 以 下 的 菌 柄 表面 ”纤维 状 、 带 鳞片 、 履 有 丝 状 软 毛 、 光 滑 

蘑菇 圈 以 上 的 菌 柄 颜色 ”褐色 、 浅 黄色 、 浅 黄 褐色 、 灰 色 、 栖 色 、 粉 色 、 红 色 、 和 白色、 黄色 

蘑菇 圈 以 下 的 菌 柄 颜色 ”褐色 、 浅 黄色、 浅黄 褐色 、 灰 色 、 栖 色 、 粉 色 、 红 色 、 和 白色、 黄色 

菌 幕 类 型 内 菌 幕 、 外 菌 幕 

菌 幕 颜色 wo, Be, Ae, Re 

蘑菇 圈 数 FE N 

蘑菇 圈 类 型 蛛网 型 、 隐 失 型 、 发 光 型 、 大 型 、 无 蘑菇 圈 、 下 垂 型 、 外 过 型 、 区 域 型 

孢子 印 颜色 A, WE, RRE, Se, RE, Be. Ae Ae, WE 









































色 
居 群 丰富 的 、 群 居 的 、 许 多 的 、 散 落 的 、 较 少 的 、 独 居 的 
M. Te, BUR. ZIM, TT, Sed, BRK 
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可 食性 (目标 变量 ) 


由 于 我 们 已 经 知道 衡量 信息 增益 的 方法 ， 所 以 目前 的 任务 变 得 很 直观 : 找 出 能 产生 最 大 信 
息 增 益 的 属性 。 


为 此 ， 我 们 需要 先 分 别 计 算 按 每 个 属性 进行 分 类 后 得 到 的 信息 增益 。 公 式 3-2 中 的 信息 增 
益 由 父 集 和 一 组 子 集 来 计算 。 对 于 每 次 计算 而 言 ， 父 集 指 的 是 整个 数据 集 。 首 先 需 要 计算 
WER ( 父 集 )， 即 整个 数据 集 的 烂 。 如 果 目 标 变量 的 两 个 取 值 在 数据 集 内 完美 地 均匀 分 
布 ， 那 么 这 个 数据 集 灶 值 为 1。 而 由 于 目前 的 数据 集 存 在 轻微 的 不 平衡 RAET 
TER), MARRE 0.96, 


Ay S FESR He FB A TR EL DEE, AS BRE — A Se TRE RIRE ( 见 图 3-6 至 
图 3-8) 。 由 于 可 以 根据 不 同 的 属性 对 整个 数据 集 做 出 不 同 的 划分 ， 所 以 每 张 图 仅 从 两 个 
维度 来 描述 该 划分 下 的 整个 数据 集 的 炉 。x 轴 表 示 当 前 数据 集 占 整个 数据 集 的 比例 (从 0 
到 1), y 轴 表 示 给 定数 据 集 的 炉 (同样 从 0 到 1)。 阴 影 区 面积 则 表示 根据 不 同属 性 划分 后 
的 (或 未 划分 前 的 ， 见 图 3-6) 整个 数据 集 的 炉 值 。 要 找到 最 低 炉 值 ， 就 要 使 图 中 阴影 区 
的 总 面积 尽 可 能 地 小 。 
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图 3-6 RIL YES BH EG. EER, RH Lee re TED, Pelee Ze BS Dc ta eB 
Kam EPR YS LAU ee (EEE, PH 4s AB DAZ 1k PL YT LA AR He EE 
不 同 划分 方式 下 的 信息 增益 可 视 化 ， 因 为 任何 一 种 划分 方式 都 能 表现 为 图 中 的 一 组 矩形 区 
W: 和 矩形 的 宽度 代表 划分 后 的 子 集 在 数据 集中 的 比例 ， 而 其 高 度 则 代表 子 集 的 炉 值 。 划 分 
后 的 数据 集 的 信息 增益 的 加 权 和 恰好 为 图 中 阴影 区 面积 的 总 和 。 























芯 菇 的 默认 灶 值 














图 3-6: 整个 蘑菇 数据 集 的 烂 图 。 因 为 整个 数据 集 的 粹 是 0.96， 所 以 有 96% 的 区 域 是 阴影 区 


因为 整个 数据 集 的 总 炉 值 是 0.96， 所 以 在 图 3-6 中 ， 阴 影 区 面积 的 上 边界 为 横 线 = 0.96。 
我 们 可 以 把 该 值 作为 初始 业 值 ， 而 任何 用 富 信息 属性 导出 的 灶 图 中 阴影 区 的 面积 都 应 该 更 
小 。 下面 ， 我 们 比较 三 个 样本 属性 所 对 应 的 炉 图 。 由 于 单个 属性 的 不 同 取 值 在 数据 集中 出 
现 的 频率 不 同 ， 所 以 基于 每 个 属性 产生 的 数据 划分 方式 也 不 同 。 


图 3-7 按 菌 裙 颜色 对 数据 集 进行 了 划分 ， 属 性 值 包 括 y (黄色 )、u (紫色 ) 和 n (褐色 ) 
等 。 每 个 值 对 应 的 矩形 宽度 代表 了 菌 裙 颜色 为 该 值 的 数据 点 在 整个 数据 集中 所 占 比例 ， 而 
其 高 度 则 为 这 个 数据 子 集 的 箭 值 。 可 以 看 出 ， 蓝 初 颜色 这 一 属性 降低 了 整体 的 箭 值 ， 因 为 
图 3-7 中 的 阴影 区 面积 明显 小 于 图 3-6 中 的 阴影 区 面积 。 

类 似 地 ， 图 3-8 展示 了 如 何 利用 抱 子 印 颜色 这 个 属性 降低 信息 的 不 确定 性 〈 和 值 )。 属 性 值 
中 的 一 小 部 分 ， 如 h (SEDE), Pee Let A pee ee ET A oy, KEE T 
值 为 0 的 矩形 阴影 区 。 但 请 注意 ， 这 部 分 数据 子 集 仅 占 整个 数据 集 的 30%， 并 不 是 很 多 。 
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图 3-9 按 气味 对 数据 集 进行 了 划分 。 该 属性 的 大 部 分 值 ， 如 a (EER), e 〈 木 焦油 味 ) 
Film (ER), AE TA OM RI. MAn (无 味 ) 的 炉 值 较 大 ( 约 为 0.2)。 实 际 
上 ， 气 味 这 个 属性 在 整个 蘑 妆 数据 集中 具有 最 大 的 信息 增益 。 它 能 够 将 数据 集 的 整体 箭 值 
降 到 0.1， 因 而 其 信息 增益 为 0.96 - 0.1 = 0.86。 这 意味 着 什么 呢 ? 许多 种 气味 完全 可 以 用 
于 区 分 蘑菇 是 有 毒 的 还 是 可 食 的 ， 因 而 气味 对 于 分 辨 芯 菇 的 可 食性 是 一 个 非常 好 的 富 信息 
属性 。 如 果 你 想 仅仅 根据 一 个 特征 来 构建 模型 以 判断 蘑菇 的 可 食性 ,那么 气味 就 是 最 好 的 
选择 ， 如 果 你 想 建立 一 个 更 复杂 的 模型 ， 那 么 最 好 也 先 从 气味 这 个 属性 开始 ， 随 后 再 考虑 
加 入 其 他 属性 。 而 这 正 是 下 一 市 的 主题 。 










































































气味 值 的 炉 值 及 比例 
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比例 











图 3-9: RADA HABA SNNS. APKNBREBSTOENIRLRN, Sheek 
WAAR NG AARP AGES, FEAR KNSRAAAUES ROG, ARAG 
宽度 则 代表 该 数据 子 集 在 全 体 数据 中 所 占 的 比例 


3.2.3 ”使 用 树 形 结构 模型 进行 有 监督 的 划分 

本 书 已 经 介绍 过 数据 科学 的 一 个 基本 概念 ， 从 数据 中 选择 富 信息 属性 。 接 下 来 将 继续 讨论 
如 何 构建 有 监督 的 划分 ， 因 为 选择 属性 虽然 非常 重要 ， 但 是 单单 进行 这 一 步 并 不 足以 解决 
数据 挖 所 的 问题 。 如 果 只 选择 出 信息 增益 最 大 的 一 个 变量 ， 我 们 会 得 到 一 个 非常 简单 的 划 









































TES: 当然 ， 这 一 切 的 前 提 是 气味 可 被 精确 地 测量 。 如 果 你 的 嗅觉 较 差 ， 那么 最 好 不 要 冒险 。 坦 白地 讲 ， 你 
最 好 不 要 把 自己 的 生命 押 在 本 书 示 例 的 数据 挖掘 结果 上 。 当 然 ， 这 并 不 妨碍 我 们 把 它 作为 一 个 不 错 的 
学 习 示例 。 
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分 方式 ;但 如 果 要 选择 多 个 信息 增益 较 大 的 属性 ， 我 们 却 还 不 清楚 怎么 把 它们 组 合 在 一 
起 。 前 文 的 例子 中 ， 我 们 尝试 过 使 用 多 个 属性 进行 数据 划分 ， 如 “居住 在 纽约 市 的 中 年 专 
业 人 士 的 平均 用 户 流失 率 为 5%”。 现 在 我 们 将 巧妙 地 应 用 之 前 探讨 过 的 关于 选择 重要 属性 
的 概念 ， 来 引出 一 个 多 变量 (或 多 属性 ) 的 有 监督 的 划分 方法 。 

试想 将 数据 的 划分 以 树 状 的 形式 呈现 。 如 图 3-10 所 示 ， 图 中 的 树 根 在 上 ， 树 冠 朝 下 。 这 
棵 树 由 节点 〈 包 括 内 部 节点 和 终端 节点 ) 和 内 部 节点 间 的 分 支 构成 。 树 状 图 中 的 每 个 内 部 
节点 都 会 对 某 一 个 属性 进行 检验 ， 并 将 该 属性 不 同 的 值 或 者 其 值 的 不 同 区 间 分 为 不 同 的 分 
支 。 从 根 市 点 沿 分 支 向 下 看 〈 即 顺 着 箭头 方向 看 ) ， 每 条 路 径 的 末端 都 会 有 一 个 终端 节点 ， 
称 为 叶 节点 。 这 棵 树 构建 了 一 种 数据 划分 方法 ， 任 意 一 个 数据 点 在 该 树 中 对 应 并 仅 对 应 一 
条 路 径 ， 也 就 是 仅 对 应 一 个 时 节点 。 换 名 话说 ， 每 个 叶 节 点 对 应 一 个 分 组 ， 而 通 向 其 的 路 
径 上 的 各 个 属性 及 其 取 值 则 给 出 了 该 分 组 的 特征 。 因 此 ， 图 3-10 中 最 右边 的 路 径 所 对 应 的 
分 组 为 “年 长 、 未 就 业 、 账 户 余额 较 多 " 。 因 为 每 个 叶 节点 都 包含 了 一 个 目标 变量 值 ， 所 
以 这 棵 树 是 有 监督 的 划分 。 由 于 讨论 的 是 分 类 问题 ， 所 以 此 处 每 个 叶 节点 包含 的 是 该 分 组 
的 分 类 类 别 。 我 们 称 这 样 的 树 为 分 类 树 ， 或 通俗 点 ， 称 为 决策 树 。 


a ale 
类 别 : 


sane ) | 账户 余额 |e 内 部 点 



















































































类 别 : 
无 不 良 贷款 


类 别 : 
无 不 良 贷款 


类 别 : 
有 不 良 贷款 











图 3-10: 一 个 简单 的 分 类 树 


分 类 树 通 常 被 用 作 预 测 模型 ， 即 “ 树 形 结构 模型 *。 实 际 应 用 中 ， 当 拿 到 一 个 分 类 未 知 的 
实例 时 ， 我 们 可 以 寻找 它 对 应 的 分 组 ， 并 使 用 叶 节 点 所 对 应 的 类 别 值 来 预测 其 类 别 。 其 实 
现 方法 是 ， 从 根 节 点 开始 ， 根 据 实例 的 具体 属性 的 值 来 选择 分 支 ， 向 下 遍历 内 部 节点 。 树 
的 非 叶 节 点 往往 被 称 为 “决策 节点 ”， 因 为 在 向 下 遍历 时 ， 在 每 个 节点 上 ， 都 需要 根据 某 
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的 分 类 类 别 ， 就 可 以 给 出 最 终 的 分 类 预测 结果 。 树 中 任意 一 个 子 市 点 有 且 仅 有 一 个 父 市 
点 ， 树 中 也 不 会 出 现 团 环 。 树 中 的 分 支 永 远 “ 指 向 下 方 “， 故 而 每 个 实例 最 终 都 将 到 达 某 
个 叶 节 点 ， 被 赋予 某 个 类 别 值 。 


思考 一 下 ， 该 如 何 使 用 图 3-10 中 的 分 类 树 对 图 3-1 中 叫 Claudio 的 人 进行 分 类 。Claudio 的 
属性 分 别 为 : 账户 余额 = 11.5 万 、 是 否 就 业 = 否 、 年 龄 = 40 岁 。 从 检验 变量 是 否 就 业 的 根 
节点 开始 ， 其 值 为 否 ， 则 选择 右 侧 分 支 。 下 一 个 接受 检验 的 变量 是 账户 余额 ， 其 值 为 11.5 
万 美元 ， 大 于 5 万 美元 ， 则 选择 右 侧 分 支 。 再 下 一 个 变量 是 年 龄 ， 其 值 为 40， 则 选择 左 侧 
分 支 。 最 终 我 们 来 到 类 别 = 无 不 良 贷款 的 叶 节 点 ， 因 此 预测 Claudio 贷款 不 会 违约 。 换 名 
话说 ， 我 们 把 Claudio 划分 进 了 一 个 定义 为 账户 余额 = 11.5 万 、 是 否 就 业 = 否 、 年 龄 < 45 
岁 、 分 类 为 无 不 良 贷款 的 分 组 中 。 


分 类 树 是 一 种 树 形 结构 模型 。 后 文中 我 们 将 看 到 ， 在 实际 商业 应 用 中 我 们 想 预 测 的 往往 并 非 
类 别 值 本 身 ， 而 是 不 同类 别 值 的 概率 (如 用 户 流失 的 概率 或 产生 不 良 贷款 的 概率 )。 在 此 例 
中 ， 概 率 估 计 树 的 叶 节 点 就 将 包含 这 些 概率 ， 而 不 是 仅仅 给 出 一 个 简单 的 值 。 如 果 目 标 变 
量 是 数值 型 ， 相 应 地 ， 回 归 树 的 叶 节 点 包含 的 就 是 数值 。 无 论 如 何 ， 其 基本 概念 是 相通 的 。 
树 形 图 能 生成 一 个 符合 期 望 的 有 监督 的 划分 的 模型 ， 然 而 ， 尽 管 已 经 知道 如 何 应 用 它 来 
预测 新 实例 的 值 ， 我 们 却 不 知道 如 何 根 据 数 据 来 构建 这 样 的 模型 。 现 在 我 们 来 讨论 这 个 
问题 。 


有 很 多 种 技术 都 能 从 数据 集中 归纳 出 有 监督 的 划分 ， 其 中 最 常见 的 一 种 就 是 构建 树 形 结构 
模型 (也 即 树 型 归纳 )。 这 些 技术 之 所 以 常见 ， 是 因为 树 形 结 构 模 型 易于 理解 、 归 纳 过 程 
简洁 〈 易 于 描述 ) ， 而 且 易于 使 用 。 它 可 以 稳定 并 相对 高 效 地 处 理 许多 常见 数据 问题 。 行 
业 中 大 部 分 数据 挖掘 工具 包 包 含 了 某 种 树 型 归纳 技术 。 


如 何 根据 数据 来 构建 分 类 树 呢 ? 综 上 所 述 ， 分 类 树 的 目的 是 进行 有 监督 的 划分 ， 有 具体 来 
说 ， 就 是 根据 每 个 实例 的 属性 ， 将 它们 划分 进 目标 变量 值 相近 的 子 组 中 。 我 们 期 望 每 片 
“叶子 ”所 对 应 的 分 组 中 包含 的 实例 最 好 能 属于 同一 类 。 

为 了 阔 释 分 类 树 的 归纳 过 程 ， 我 们 再 来 看 一 下 图 3-2 所 示 的 简单 示例 。 

树 型 归纳 采取 分 而 治之 的 方法 ， 先 从 整个 数据 集 开 始 ， 运 用 变量 选择 来 找到 产生 尽 可 能 
“最 纯 ” 子 集 的 属性 。 在 本 例 中 ， 给 人 分 组 的 一 种 方法 是 基于 身体 形状 矩形 或 椭圆 形 。 
由 此 创建 了 如 图 3-11 所 示 的 两 个 组 。 这 样 的 分 组 效果 如 何 呢 ? 甜 形 身体 的 一 组 在 左 侧 ， 其 
中 大 部 分 是 有 不 良 贷款 者 ， 而 仅 有 一 个 无 不 良 贷 款 者 ， 因 此 这 组 基本 上 是 纯 的 。 椭 圆 形 身 
体 组 在 右 侧 ， 大 部 分 是 无 不 良 贷款 者 ， 但 有 两 个 有 不 良 贷款 者 。 不 过 这 仅 是 对 前 文 属性 选 
择 概念 的 一 次 直接 应 用 。 让 我 们 暂且 把 这 种 分 类 方法 视 为 产生 信息 增益 最 大 的 一 种 。 
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长 方形 身体 组 


有 有 有 
有 有 无 





椭圆 形 身体 组 


有 无 有 
无 无 无 








B 3-11: 第 一 次 划分 ， 根据 身体 形状 (FERS / 椭圆 形 ) 进行 划分 
从 图 3-11 中 可 以 看 到 树 型 归纳 的 优美 之 处 ， 以 及 其 受 欢迎 的 原因 。 左 右 两 个 子 组 只 不 过 是 


最 初 要 解决 的 问题 的 缩小 版 ， 只 需 


单 归 地 对 每 个 子 





果 最 佳 的 属性 即 可 。 因 此 在 此 例 中 ， 我 们 对 椭圆 形 
为 了 对 这 个 组 再 次 分 组 ， 我 们 使 用 另 一 个 属性 : 脑袋 形状 。 这 样 ， 该 组 又 分 为 图 中 右 侧 所 
示 的 两 组 。 这 次 分 组 效果 又 如 何 呢 ? 每 个 新 组 都 有 单一 的 目标 值 : 四 个 (方形 脑袋 组 ) 无 
不 良 贷款 和 两 个 〈 圆 形 脑袋 组 ) 有 不 良 贷款 。 因 为 


























以 无 须 继续 分 组 。 

















集 应 用 属性 选择 ， 直 至 最 终 找 出 分 组 效 
身体 组 进行 递归 式 的 处 理 〈 见 图 3-12)。 

















这 两 组 的 类 别 标签 都 是 “最 纯 ” 的 ， 所 





椭圆 形 身体 组 


有 无 有 
无 无 无 
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椭圆 形 身体 + 椭圆 形 身体 + 
方形 脑袋 组 圆 形 脑袋 组 


it 
A A 








B 3-12: 第 二 次 划分 ， 根 据 脑袋 形状 对 椭圆 形 身体 组 进行 再 次 划分 
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我 们 还 未 对 图 3-11 中 左 侧 的 矩形 身体 组 做 任何 处 理 ， 现 在 来 看 看 它 如 何 继续 分 组 。 组 中 含 
有 五 个 有 不 良 贷款 和 一 个 无 不 良 贷款 ， 有 两 个 属性 可 作为 分 组 依据 KRR (方形 / 
圆 形 ) 和 身体 颜色 (白色 /灰色 )， 这 二 者 都 能 起 作用 。 此 处 随机 地 选择 身体 颜色 作为 分 组 
依据 ， 由 此 产生 了 如 图 3-13 所 示 的 分 组 。 由 于 这 些 分 组 都 是 纯 的 〈 均 只 包含 一 种 目标 变量 
值 )， 所 以 无 须 继续 进行 。 所 有 这 些 分 组 对 应 的 分 类 树 见 图 3-14。 


























长 方形 身体 + 长 方形 身体 + 
长 方形 身体 组 白色 身体 组 灰色 身体 组 


有 
图 3-13: BERD, RIA AME WETS Moa TAI 
总 之 ， 分 类 树 型 归纳 的 过 程 是 一 个 递归 地 分 而 治之 的 过 程 ， 每 一 步 的 目标 都 是 选 出 能 把 当 
前 数据 集 分 组 成 (对 目标 变量 来 说 ) 尽 可 能 纯 的 子 集 的 属性 。 递 归 地 进行 这 种 划分 ， 一 步 
一 步 直到 结束 。 在 选择 属性 的 时 候 ， 我 们 需要 测试 所 有 的 变量 ， 并 选 出 能 够 使 所 分 出 的 子 
集 最 纯 的 属性 。 那 么 何 时 结束 呢 ? (换言之 ， 何 时 停止 递归 ? ) 显然 ， 当 节点 是 纯 的 ， 或 


所 有 变量 均 已 被 分 组 时 ， 应 该 停止 。 但 我 们 可 能 会 需要 提前 结束 ， 而 这 个 问题 将 在 第 5 章 
讨论 。 





















































身体 形状 





有 有 有 有 无 有 
i i i ADN 
身体 颜色 脑袋 形状 
白色 灰色 方形 圆 形 








3-14; 根据 图 3-11 和 图 3-13 的 划分 得 到 的 分 类 树 














预测 建 模 导论 : 从 相关 性 到 有 监督 的 划分 | 51 


3.3 划分 的 可 视 化 


如 果 沿 用 把 预测 建 模 看 作 有 监督 的 划分 的 说 法 ， 那 么 可 视 化 地 展现 分 类 树 是 如 何 划分 实例 
空间 的 会 很 有 启发 性 。 实 例 空间 指 的 是 由 数据 特征 所 描述 的 空间 。 一 种 常见 的 实例 空间 可 
视 化 的 形式 是 描述 某 些 成 对 特征 的 散 点 图 。 这 些 散 点 图 将 变量 两 两 对 比 ， 来 探索 这 些 变量 
之 间 的 关联 和 关系 。 

虽然 数据 可 能 包含 十 几 个 甚至 百 余 个 变量 ， 但 我 们 一 次 只 能 从 两 到 三 个 维度 对 划分 进行 可 
视 化 。 不 过 ， 仅 从 几 个 维度 进行 实例 空间 可 视 化 ， 仍 然 有 助 于 理解 不 同 种 类 的 模型 ， 因 为 
在 这 个 过 程 中 所 得 到 的 见解 也 同样 适用 于 更 高 维度 的 空间 。 在 比较 差异 较 大 的 模型 类 别 
时 ， 仅 仅 通过 观察 它们 的 形式 〈 如 一 个 数学 公式 相对 于 一 组 规则 ) 或 生成 它们 的 算法 可 能 
不 太 容 易 做 出 比较 。 通 常 ， 更 简单 的 方法 是 比较 它们 对 实例 空间 的 划分 方式 。 

例如 ， 图 3-15 展示 了 一 个 简单 的 分 类 树 和 其 对 应 的 二 维 实例 空间 图 (x 轴 代 表 账 户 余额 ， 
了 轴 代 表 年 龄 )。 分 类 树 的 根 节 点 检验 的 是 账户 余额 是 否 超过 5 万 美元 。 与 之 对 应 的 二 维 坐 
标 图 中 “账户 余额 = 5 万 ”的 垂直 虚线 将 平面 划分 成 了 “账户 余额 少 于 5 万 美元 ”和 “ 账 
余额 不 少 于 5 万 美元 ”两 部 分 。 左 侧 区 域 的 实例 账户 余额 不 足 5 万 美元 ， 其 中 包含 13 
个 有 不 良 贷款 者 ( 即 “。) 和 2 个 无 不 良 贷款 者 ( 即 “+”)。 


根 节 点 右 侧 分 支 指向 账户 余额 不 少 于 5 万 美元 的 实例 。 其 下 一 个 节点 检验 的 是 年 龄 是 否 超 
过 45 岁 ， 与 之 对 应 的 是 二 维 坐 标 图 中 “年 龄 = 45” 的 水 平 虚线 ， 这 条 虚线 仅 出 现在 右 半 
部 分 ， 因 为 这 次 划分 仅 针对 账户 余额 超过 5 万 美元 的 实例 。 该 节点 左 侧 分 支 指向 的 实例 年 
龄 决策 节点 是 “年 龄 低 于 45 岁 ”， 与 之 对 应 的 是 二 维 坐 标 图 的 右 下 部 分 ， 代 表 “ 账 户 余额 
不 少 于 5 万 美元 且 年 龄 低 于 45 岁 ”。 

注意 ， 每 个 内 部 节点 (决策 节点 ) 都 对 应 对 实例 空间 的 一 次 划分 ， 而 每 个 叶 节点 都 对 应 实 
例 空间 中 一 个 未 划分 的 区 域 〈 即 总 体 的 一 个 分 组 )。 每 当 沿 着 一 条 路 径 离 开 某 个 决策 节点 
后 ， 我 们 都 仅 关 注 该 次 划分 所 产生 的 两 个 或 多 个 子 区 域 中 的 一 个 。 随 着 向 下 遍历 的 过 程 ， 
我 们 面 对 的 实例 空间 子 集 也 会 越 来 越 目标 明确 。 


决策 线 与 超 平面 

对 实例 空间 进行 划分 的 线 被 称 作 决策 线 (二 维 空间 中 )， 一 般 也 被 称 作 决策 平 
面 或 决策 边界 。 因 为 分 类 树 中 的 内 部 节点 是 根据 某 个 变量 的 取 值 进行 检验 的 ， 
所 以 这 个 节点 所 对 应 的 决策 边界 总 是 垂直 于 该 变量 所 在 的 坐标 币 。 在 二 维 空间 
中 ， 决 策 边界 要 么 是 水 平 的 ， 要 么 是 垂直 的 。 若 数据 中 有 三 个 变量 ， 则 实例 空 
间 也 是 三 维 的 ， 那 么 分 类 树 的 每 个 决策 边界 就 是 一 个 二 维 平面 。 在 更 高 维 的 空 
间 中 ， 由 于 分 类 树 的 每 个 节点 检验 一 个 变量 ， 而 这 可 以 视 作 确 定 了 决策 边界 中 
的 一 个 维度 ， 所 以 ， 如 果 一 个 问题 有 个 变量 ， 那 么 分 类 树 的 各 个 节点 就 可 
以 在 其 实例 空间 中 创建 一 个 n- 1 维 的 “ 超 平面 ”决策 边界 。 

在 数据 挖掘 方 面 的 文献 资料 中 ， 超 平面 一 词 经 常 泛 指 一 切 分 界 平面 ， 也 就 是 
说 ， 不 管 什么 平面 都 可 以 用 它 指 代 。 别 被 这 个 术语 吓 到 ， 你 只 要 把 它 想 成 是 
泛 指 的 线 或 平面 的 即 可 。 

决策 平面 可 能 还 有 一些 其 他 形式 ， 后 面 会 提 到 。 
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B 3-15: 一 个 分 类 树 及 其 所 对 应 的 实例 空间 的 划分 。“。” 指 有 不 良 贷款 ，“+” 指 无 不 良 贷款 。 不 同 
的 阴影 区 域 代表 了 分 类 树 的 不 同 叶 节 点 所 对 应 的 实例 空间 的 划分 


3.4 把 树 视 作 规则 组 
在 结束 对 分 类 树 的 说 明 并 开启 下 一 个 话题 之 前 ， 有 必要 提 一 下 分 类 树 的 另 一 种 表现 形式 ， 


逻辑 声明 。 回 想 一 下 图 3-15 中 的 分 类 树 ， 在 对 一 个 新 出 现 的 实例 进行 分 类 时 ， 我 们 会 从 根 
市 点 开始 ， 经 过 一 系列 属性 检验 后 到 达 某 个 叶 市 点 ， 最 后 得 到 该 实例 的 类 别 的 预测 值 。 如 
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果 从 根 市 点 沿 一 条 单一 路 径 抵 达 叶 市 点 ， 并 整合 沿路 径 出 现 的 所 有 条 件 ， 我 们 就 能 得 到 一 
条 规则 。 每 条 规则 都 由 沿路 径 进行 的 各 属性 检验 的 并 集 构成 。 例 如 ， 从 根 节 点 开始 ， 如 果 
始终 选择 左 侧 分 支 ， 将 得 到 如 下 规则 : 


如 果 (账户 余额 少 于 5 万 美元 ) E (年 龄 低 于 50 岁 ) ， 那 么 分 类 为 有 不 良 贷 款 者 。 
根据 树 中 每 一 条 可 能 的 路 径 ， 我 们 得 到 如 下 三 条 规则 : 


如 果 (账户 余额 少 于 5 万 美元 ) 且 (年 龄 不 低 于 50 岁 ) ， 那 么 分 类 为 无 不 良 贷款 者 。 
如 果 (账户 余额 不 少 于 5 万 美元 ) 且 (年 龄 低 于 45 岁 ) ， 那 么 分 类 为 有 不 良 贷 款 者 。 
如 果 (账户 余额 不 少 于 5 万 美元 ) 且 (年 龄 不 低 于 45 岁 ) ， 那 么 分 类 为 无 不 良 贷款 者 。 


分 类 树 与 上 述 的 规则 组 是 等 价 的 。 如 果 你 觉得 这 些 规则 看 上 去 有 许多 重复 之 处 ， 那 是 因为 
它们 确实 是 重复 的 : 分 类 树 就 是 一 般 规则 中 的 条 件 聚 集 起 来 构成 的 。 每 个 分 类 树 都 能 以 这 
种 方式 表示 为 一 组 规则 。 至 于 哪个 更 清晰 易 懂 ， 这 就 见仁见智 了 。 在 上 述 的 简单 例子 中 ， 
两 种 形式 都 非常 易于 理解 。 而 当 模 型 逐渐 变 得 庞大 的 时 候 ， 两 者 的 易 理 解 性 就 会 出 现 差 
异 ， 不 同 的 人 对 此 也 会 有 不 同 的 偏好 。 


3.5 ”概率 估计 


在 许多 决策 问题 中 ， 比 起 单纯 的 分 类 ， 我 们 更 希望 得 到 信息 量 更 大 的 预测 结果 。 比 如 在 用 
户 流失 预测 问题 中 ， 我 们 不 仅 预测 了 用 户 是 否 会 在 合约 到 期 后 90 天 内 续 约 ， 而 且 估 计 了 
用 户 在 该 时 间 段 内 不 再 续 约 的 概率 。 这 样 的 估计 用 处 多 多 ， 本 书 将 在 后 面 儿童 中 详细 讨 
论 ， 在 此 仅 做 简要 介绍 : 你 可 以 按 流失 概率 对 用 户 进 行 排 序 ， 并 将 有 限 的 激励 预算 分 配 到 
最 可 能 流失 的 用 户 身上 ; 或 者 ， 你 可 以 把 这 些 预算 分 配 到 一 旦 流失 预期 损失 最 大 的 用 户 身 
上 ， 为 此 你 同样 需要 流失 概率 的 估计 值 。 一 旦 有 了 这 些 概 率 估计 值 ， 你 就 可 以 将 其 应 用 到 
许多 更 加 复杂 的 决策 过 程 中 ， 本 书 将 在 以 后 的 章节 中 详细 描述 相关 内 容 。 

仅 给 出 简单 分 类 而 非 类 别 概率 的 模型 ， 还 存在 另外 一 个 更 加 不 易 察 觉 的 问题 。 以 信用 贷款 
违约 的 预测 问题 为 例 ， 在 一 般 情况 下 ， 基 本 上 在 我 们 进行 信贷 评估 的 总 体 的 每 个 分 组 中 ， 
其 成 员 产 生 不 良 贷 款 的 概率 都 非常 低 一 一 远 小 于 0.5。 如 果 在 这 种 情况 下 构建 了 一 个 模型 ， 
来 对 违约 情况 进行 分 类 〈 即 是 否 有 不 良 贷款 )， 那 么 就 会 出 现 所 有 分 组 的 成 员 都 不 倾向 于 
违约 ， 即 分 类 都 相同 〈 无 不 良 贷 款 ) 的 情况 。 打 个 比方 ， 如 果 在 一 个 构造 简单 的 分 类 树 
中 ， 每 个 叶 节 点 都 被 标注 为 “无 不 良 贷款 "， 这 就 会 让 数据 挖掘 新 手 非 常 诅 形 : 忙 了 半天 ， 
结果 竟然 是 没 人 可 能 会 违约 ? 不 过 ， 这 并 不 意味 着 该 模型 毫 无 用 处 。 不 同 分 组 产生 不 良 贷 
款 的 概率 可 能 的 确 大 相 径 庭 一 一 只 不 过 它们 都 小 于 0.5 而 已 。 如 有 果 根 据 这 些 信贷 违约 概率 
来 进行 信贷 评估 ， 就 能 大 大 降低 风险 。 

因此 ， 在 有 监督 的 划分 中 ， 我 们 希望 每 个 分 组 〈 即 分 类 树 的 每 个 叶 节点) 都 给 出 不 同类 别 
下 成 员 概率 的 估计 值 。 图 3-15 基于 不 良 贷款 预测 示例 展示 了 一 个 常规 的 “概率 估计 树 ” 模 
型 ， 它 不 仅 预 测 了 类 别 值 ， 还 预测 了 类 概率 估计 值 。 















































































































































注 6: 通常 我 们 处 理 的 是 二 元 分 类 问题 ， 如 有 不 良 贷款 与 否 、 用 户 流失 与 否 。 在 这 些 情况 下 ， 往 往 只 计算 其 
中 一 类 的 概率 p(c)， 这 是 因为 另 一 类 自然 是 1 — p(c)o 
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邮 


幸运 的 是 ， 目 前 我 们 讨论 的 树 型 归纳 概念 能 够 非常 容易 地 导出 概率 估计 树 ， 而 不 仅 是 简单 
的 分 类 树 。' 前 文中 提 过 ， 树 型 归纳 能 将 实例 空间 划分 成 类 别 尽 可 能 纯 ( 即 低 炉 值 ) 的 
域 。 如 果 认 同 某 一 叶 节 点 所 对 应 的 分 组 内 的 各 成 员 类 概率 相同 这 一 假设 ， 那 么 我 们 便 可 以 
用 每 个 叶 节 点 中 的 实例 数 来 计算 某 个 类 概率 的 估计 值 。 比 如 ， 如 果 一 个 叶 节 点 包含 二 个 正 
实例 和 m 个 负 实 例 ， 那 么 新 实例 为 正 的 概率 就 是 We+zD)。 这 种 方法 被 称 为 基于 频率 的 类 
成 员 概率 估计 。 


此 时 你 大 概 会 发 现 一 个 问题 ， 当 使 用 上 述 方 法 估计 类 成 员 概 率 时 ， 我 们 对 实例 数 极 少 的 分 
组 中 的 类 成 员 概 率 估计 可 能 会 过 度 乐观 。 极 端 情况 下 ,假设 一 个 叶 届 点 只 含有 一 个 类 别 碰 
巧 为 某 个 值 的 实例 ， 我 们 可 以 说 被 划 入 这 个 叶 布 点 的 任意 一 个 新 实例 属于 该 类 别 的 概率 是 
100% 吗 ? 


这 种 现象 是 数据 科学 中 一 个 基本 概念 (“过 拟 合 ”) 的 一 个 示例 ， 之 后 本 书 将 用 整整 一 章 来 
论述 它 。 为 了 本 书 结构 的 完整 性 ， 在 此 先 简要 说 明 一 个 简单 方法 ， 来 解决 在 小 样本 情况 下 
基于 分 类 树 的 类 概率 估计 而 存在 的 过 拟 合 问题 。 这 时 我 们 通常 不 会 单纯 地 计算 频率 ， 而 会 
用 一 种 “ 平 消 ”后 的 基于 频率 的 估计 ， 称 作 “ 拉 普 拉 斯 修正 ”。 其 目的 是 减轻 仅 有 几 个 实 
例 的 叶 节 点 对 类 概率 估计 的 影响 。 二 元 分 类 问题 的 类 概率 估计 公式 就 变 成 了 如 下 形式 : 





名 






































7 十 1 





C= 
Pte) n+m+2 


HE n ela HURT c 的 实例 数 ，m 是 不 属于 类 c 的 实例 数 。 


在 此 用 一 个 示例 来 比较 使 用 和 不 使 用 拉 普 拉 斯 修正 这 两 种 情景 。 一 个 有 2 个 正 实例 、 没 有 
负 实 例 的 叶 节 点 ， 与 另 一 个 有 20 个 正 实例 、 没 有 负 实 例 的 叶 节 点 基于 频率 的 概率 估计 值 
( 即 p = 1) 相同。 然而， 前 者 的 实例 数 太 少 ， 其 估计 值 可 能 由 极端 情况 导致 ， 因 此 该 估计 
需要 调整 。 拉 普 拉 斯 公式 将 该 估计 平滑 到 了 p = 0.75， 确 实体 现 了 它 的 不 确定 性 。 但 拉 普 
拉 斯 修正 对 于 实例 数 为 20 的 叶 节 点 而 言 ， 影 响 就 小 多 了 (p x 0.95) 。 随 着 实例 个 数 的 增 
加 ， 拉 普 拉 斯 修正 的 结果 逐渐 趋 近 于 基于 频率 的 估计 值 。 图 3-16 展示 了 当 实 例 数 逐 渐 增加 
时 ， 拉 普 拉 斯 修正 对 不 同类 别 比 例 (2/3. 4/5 和 1/1) 的 修正 效果 。 图 中 对 应 的 每 个 类 别 比 
例 的 水 平实 线 代表 未 修正 的 (常数 ) 估计 值 ， 相 应 的 虚线 则 代表 应 用 拉 普 拉 斯 修正 后 的 估 
计 值 ， 前 者 是 后 者 在 实例 数 趋向 无 穷 时 的 渐 近 线 。 






































注 7: 即使 决策 者 用 的 是 概率 估计 而 非 简单 分 类 ， 它 们 也 仍 被 称 为 分 类 树 。 
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3-16: 拉 普 拉 斯 修正 对 不 同 实例 比率 的 平滑 效果 


3.6 示例 : 用 树 型 归纳 解决 用 户 流失 问题 
在 学 完 预测 建 模 的 数据 挖 气 基 础 技术 之 后 ， 我 们 继续 考虑 用 户 流失 问题 。 如 何 运 用 树 型 归 
纳 来 解决 这 个 问题 呢 ? 


假设 我 们 的 历史 数据 集 包 含 20 000 个 用 户 ， 在 收集 数据 期 间 ， 这 些 用 户 要 么 续 约 ， 要 么 不 
再 续 约 〈 即 流失 )。 表 3-2 列 出 了 描述 用 户 所 用 的 变量 。 


表 3-2: 通信 公司 用 户 流失 问题 中 的 用 户 属性 














ket 
ja 
JE 
ki 
















































































大 学 该 客户 是 否 有 大 学 学 历 ? 

收入 年 收入 

超额 月 平均 超额 使 用 费用 

剩余 月 平均 剩余 分 钟 数 

房价 房价 估计 值 (根据 人 口 区 域 普查 ) 
手机 价格 手机 价格 

每 月 长 通话 月 平均 长 通话 数 (不 少 于 15 分 钟 ) 
平均 通话 时 长 平均 通话 时 长 

满意 程度 满意 程度 

使 用 程度 jj 户 自我 评定 的 使 用 程度 

流失 (目标 变量 ) 用 户 是 否 还 留 在 公司 (是 否 流失 ) ? 
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这 些 变量 所 包含 的 基础 人 口 统计 信息 和 使 用 信息 可 从 用 户 的 应 用 和 账户 中 取得 。 我 们 将 根 
据 这 些 数 据 ， 运 用 树 型 归纳 技术 来 预测 哪些 新 用 户 将 会 流失 。 


在 根据 以 上 变量 构建 分 类 树 之 前 ， 最 好 知道 这 些 变量 各 自 独 立 的 预测 效果 如 何 。 为 此 ， 我 
们 按照 前 文 所 述 的 方法 测量 了 每 个 属性 所 产生 的 信息 增益 。 尤 其 是 ， 在 整个 实例 集合 中 ， 
我 们 将 公式 3-2 分 别 应 用 于 每 一 个 变量 ， 并 计算 它们 所 产生 的 信息 增益 。 

结果 如 图 3-17 中 的 列表 所 示 。 可 以 看 出 ， 前 三 个 变量 “房价 ” “超额 ”和 “每 月 长 通 
话 ” 一 一 的 信息 增益 比 其 他 变量 高 。 出 平 意料 的 是 ,“ 使 用 程度 ”和 “满意 程度 ”两 者 本 
身 对 用 户 流失 的 预测 效果 都 不 好 。 









































0.005 
9 Ss Bs 
和 
xs, An “he KA 人 
KA Bh, $ $ 
a % 
排序 ”信息 增 量 ”属性 名 称 
1 0.0461 房价 
2 0.0436 超额 
3 0.0350 每 月 长 通话 
4 0.0136 剩余 
5 0.0101 收入 
6 0.0089 平均 通话 时 长 
7 0.0076 手机 价格 
8 0.0003 满意 程度 
9 0.000 大 学 
10 0.000 使 用 程度 





图 3-17: 表 3-2 中 的 用 户 流失 数据 中 的 变量 ， 按 信息 增益 排序 











注 8: 注意 ， 用 户 流失 数据 集中 变量 的 信息 增益 比 先前 蘑菇 数据 集中 变量 的 信息 增益 小 很 多 。 
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将 分 类 树 算 法 应 用 于 数据 后 ， 就 得 到 图 3-18 中 的 分 类 树 。 图 3-17 表明 ， 信 息 增益 最 高 的 
变量 “房价 ”位 于 树 的 根 节 点 。 这 是 符合 预期 的 ， 因 为 这 个 变量 往往 被 最 先 选择 。 第 二 好 
的 特征 ,，“ 超额 ”， 也 在 树 的 上 部 。 然 而 ， 树 中 变量 的 选择 顺序 与 图 3-17 中 的 顺序 并 不 完全 


相同 ， 这 是 为 什么 呢 ? 























<600 469 > 600 469 
<97 >97 <100 010 > 100 010 
HE £=0.19 超额 
由 
(留存 ) 
<144 > 144 


概率 = 0.81 
(流失 ) 






>26 





五 是 <18 
= 0.31 
WER = 0.51 概率 平均 通话 此 
(流失 ) (留存 ) 平均 通话 时 长 
<59 807 > 59 807 <6 >6 


概率 = 0.62 概率 = 0.49 概率 = 0.55 概率 = 0.44 
(流失 ) (留存 ) (流失 ) (留存 ) 


图 3-18: 手机 用 户 流失 数据 所 构建 的 分 类 树 。 和 矩形 的 叶 节 点 代表 总 体 的 分 组 ， 该 分 组 由 从 根 节 点 向 
下 延伸 出 的 路 径 定义 。 叶 节点 上 的 概率 值 是 该 分 组 下 用 户 流失 概率 的 估计 值 ， 括 号 内 则 是 
根据 概率 是 否 大 于 0.5 来 进行 的 分 类 决策 [ 比如 :该 划分 下 的 个 体 是 倾向 于 流失 (CHURN )， 
还 是 留存 (STAY) ? ] 
















原因 是 ， 在 图 3-17 的 列表 中 ， 我 们 基于 整个 实例 总 体 分 别 测量 各 变量 的 信息 增益 ， 并 按照 
变量 独立 的 表现 给 它们 排序 。 而 分 类 树 中 的 节点 则 取决 于 其 上 一 层 的 实例 集合 。 因 此 除了 
根 市 点 外 ,分 类 树 中 的 特征 的 信息 增益 都 不 是 基于 整个 实例 集合 来 测量 的 。 由 于 任意 一 个 
特征 的 信息 增益 都 依赖 于 它 所 基于 的 实例 集合 ， 所 以 某 些 内 部 节点 的 特征 的 排序 就 可 能 与 
全 局 排序 不 同 。 
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我 们 还 未 讨论 如 何 决 定 终止 分 类 树 的 分 支 。 示 例 使 用 的 数据 集中 含有 20 000 个 数据 点 ， 而 
分 类 树 的 叶 节 点 显然 没有 这 么 多 。 我 们 能 一 直 持 续 地 选择 属性 来 划分 数据 ， 直 到 无 数据 可 
分 为 止 吗 ? 这 样 虽然 也 可 以 ， 但 如 此 一 来 模型 就 会 变 得 非常 复杂 ， 因 此 实际 上 我 们 需要 早 
早 停止 。 而 这 个 问题 与 模型 的 通用 性 和 过 拟 合 密切 相关 。 第 5 章 会 探讨 过 拟 合 。 

思考 一 下 该 数据 集 的 最 后 一 个 问题 。 在 基于 数据 建立 树 形 结构 模型 后 ， 我 们 通过 测量 其 准 
确 率 来 衡量 该 模型 的 优 劣 程度 。 有 具体 做 法 是 : 选取 一 个 训练 集 ， 使 其 中 的 流失 用 户 与 未 流 
失 用 户 各 占 一 半 ， 用 该 训练 集 构建 一 个 分 类 树 ， 再 将 其 应 用 于 原 数据 集 ， 看 看 有 多 少 实例 
被 正确 地 分 类 。 最 终 ， 这 个 分 类 树 分 类 的 正确 率 是 73%。 这 引出 了 如 下 问题 。 


(1) 首先 ， 你 相信 这 个 数字 吗 ? 如 果 把 这 个 分 类 树 应 用 于 另 一 个 源 于 相同 数据 集 的 20 000 
人 样本 ， 其 精确 度 仍 会 是 73% 吗 ? 


(2) 其次， 即使 你 的 确 相 信 这 个 数字 ， 可 它 真 的 意味 着 模型 优良 吗 ? 换 旬 话说， 这 个 准确 率 
为 73% 的 模型 能 用 吗 ? 


第 7 章 和 第 8 章 会 回顾 这 些 问题 ， 并 深入 研究 模型 评估 问题 。 


3.7 小 结 


本 章 介 绍 了 预测 建 模 的 基本 概念 。 预 测 建 模 是 数据 科学 的 主要 任务 之 一 ， 它 通过 建立 模型 
来 估计 新 个 体 的 目标 变量 值 。 甚 间 本 章 引入 了 数据 科学 的 一 个 基本 概念 : 找 出 并 选择 富 信 
息 属 性 。 选 择 富 信息 属性 本 身 也 是 一 个 有 用 的 数据 挖掘 过 程 。 面 对 一 个 庞大 的 数据 集 ， 我 
们 现在 能 够 找 出 其 中 的 某 些 变量 ， 它 们 要 么 能 给 出 有 关 我 们 所 关心 的 其 他 变量 的 信息 ， 要 
么 与 该 变量 相关 。 比 如 ， 如 果 收 集 了 在 合约 到 期 后 短期 内 续 约 或 不 续 约 〈 即 流失 ) 的 用 户 
的 历史 数据 ， 那 么 通过 属性 选择 就 可 以 找到 人 口 统计 方面 或 账户 方面 的 变量 ， 进 而 可 以 使 
用 其 中 的 信息 来 反映 用 户 流失 的 可 能 性 。 衡 量 属性 信息 量 的 基本 指标 是 信息 增益 ， 它 基于 
一 个 被 称 作 灶 的 纯度 指标 ， 另 一 个 指标 则 是 方差 缩减 。 

富 信息 属性 选择 是 常用 的 建 模 技 术 之 一 一 一 树 型 归纳 一 一 的 基础 。 树 型 归纳 能 够 递归 地 找 
出 数据 子 集中 的 富 信息 属性 ， 同 时 把 其 实例 空间 划分 为 相似 的 区 域 。 这 样 的 划分 之 所 以 被 
称 为 “有 监督 的 "， 是 因为 它 所 尝试 找 出 的 分 组 ， 可 以 为 要 预测 的 量 ( 即 目标 变量 ) 提供 
越 来 越 精确 的 信息 。 最 终 的 树 形 结构 模型 将 实例 空间 划分 成 一 系列 分 组 ， 而 每 个 分 组 对 应 
的 目标 变量 预测 值 都 不 同 。 比 如 ， 如 果 目 标 变 量 的 分 类 是 二 元 的 〈 如 是 否 流失 ， 或 是 否 有 
不 良 贷款 )， 那 么 分 类 树 的 每 个 叶 节 点 就 对 应 着 总 体 中 的 一 个 分 组 ， 而 各 分 组 对 应 的 类 成 
员 概 率 估计 值 各 不 相同 。 


作为 练习 ， 思 考 一 下 : 如 果 用 回归 构建 一 个 树 形 结构 模型 ， 它 跟 分 类 树 有 何 


不 同 ? 在 你 学 过 的 分 类 树 型 归纳 过 程 中 ， 需 要 对 哪些 因素 做 出 改变 才 可 以 生 
成 回归 树 ? 

































































历史 上 ， 树 型 归纳 由 于 具有 通俗 易 懂 、 易 于 实施 和 计算 廉价 的 优势 ， 一 直 是 一 种 非常 受 
欢迎 的 数据 挖 据 方法 。 对 树 型 归纳 的 研究 至 少 要 追溯 到 20 世纪 五 六 十 年 代 。 最 早 的 树 型 
归纳 系统 ， 包 括 CHAD ( 卡 方 自动 交互 侦 测 器 ，Kass, 1980) 和 CART (分 类 与 回归 树 ， 
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Breiman, Freidman, Olshen & Stone, 1984) ， 至 今 仍 被 广泛 应 用 。C4.5 和 C5.0 作为 同样 流行 
的 树 型 归纳 算法 ， 其 世系 显而易见 (Quinlan, 1986, 1993), J48 则 是 Weka? 包 中 对 C4.5 的 
重新 实现 (Witten & Frank, 2000; Hall 等 , 2001). 


实践 中 ， 在 我 们 能 从 特定 数据 集中 提取 出 的 模型 中 ， 树 形 结构 尽管 不 是 精度 最 高 的 ， 效 果 
却 出 类 氢 萃 。 在 很 多 情况 下 ， 尤 其 是 在 应 用 数据 挖掘 的 早期 ， 使 模型 易于 理解 、 便 于 解释 
是 十 分 重要 的 。 这 一 点 不 仅 对 数据 科学 团队 本 身 十 分 有 用 ， 而 且 在 他 们 和 不 懂 数 据 挖掘 的 
企业 利益 相关 者 交流 成 果 时 也 是 非常 有 用 的 。 






































注 9; 一 种 数据 挖掘 软件 。 一 一 译 者 注 
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第 4 章 


用 模型 拟 合 数据 





基本 概念 : 基于 数据 寻找 “最 优 ” 模 型 参数 ; 选择 数据 挖掘 目标 ; 目标 函数 ; 损 
失 函 数 


示例 方法 : 线性 回归 ; 逻辑 回归 ; 支持 向 量 机 


我 们 已 经 了 解 到 ， 预 测 建 模 就 是 根据 其 他 描述 性 属性 找 出 目标 变量 的 模型 的 过 程 。 在 第 3 
章 ， 我 们 通过 在 逐步 精确 的 数据 子 集中 〈 或 从 几何 角度 讲 ， 从 逐步 精确 的 实例 空间 的 子 空 
间 中 ) 递归 地 寻找 富 信息 变量 ， 构 建 了 一 个 有 监督 的 划分 的 模型 。 根 据 数据 ， 我 们 不 仅 构 
建 了 模型 的 结构 ( 即 由 树 型 归纳 得 到 的 树 形 模型 )， 还 得 到 了 模型 的 数值 型 “参数 ”( 即 叶 
节点 上 的 概率 估计 )。 


另 一 种 从 数据 集中 提取 预测 模型 的 方法 ， 是 先 确定 模型 的 结构 ， 而 使 模型 的 数值 型 参数 待 
定 。 然 后 再 通过 数据 挖掘 ， 根 据 特定 的 训练 数据 集 计 算出 最 佳 参数 值 。 常 见 的 情形 是 ， 模 
型 由 含有 一 系列 数值 变量 的 参数 化 的 数学 函数 或 公式 构成 ， 而 我 们 既 可 以 基于 领域 知识 ， 
从 理论 上 判断 哪些 变量 对 目标 变量 具有 较 好 的 预测 性 ， 也 可 以 基于 其 他 数据 挖 据 技术 (如 
第 3 章 介绍 的 属性 选择 方法 ) 来 决定 模型 需要 使 用 哪些 变量 。 数 据 挖掘 系统 中 ， 模 型 的 形 
式 及 其 所 用 变量 是 确定 的 ， 数 据 挖 掘 的 目的 则 是 通过 调整 参数 来 使 模型 尽 可 能 地 拟 合 数 
据 。 这 种 一 般 方法 被 称 作 参数 学 习 或 参数 化 建 模 。 























在 统计 学 和 计量 经 济 学 的 某 些 领 域 中 ,“ 模 型 ”是 指 未 明确 参数 的 模型 。 我 们 
需要 澄清 ， 这 仅 是 一 个 模型 的 结构 ， 它 在 参数 待定 的 情况 下 是 无 法 使 用 的 。 











这 个 一 般 框 架 包含 许多 数据 挖掘 过 程 ， 而 这 些 数据 挖掘 过 程 均 基于 线性 模型 ， 本 书 将 展示 
其 中 一 些 最 常用 的 。 如 果 你 学 过 统计 学 ， 那 么 你 可 能 已 经 了 解 了 一 种 线性 建 模 技 术 : 线性 
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回归 。 其 中 会 有 一 些 区 别 和 我 们 已 经 学 过 的 模型 的 区 别 相同 ， 比 如 分 类 任务 、 类 概率 估计 
任务 和 回归 任务 之 中 的 区 别 。 在 举例 说 明 的 部 分 ， 本 书 会 展示 一 些 常 用 技术 。 它 们 可 以 用 
来 预测 (或 估计 ) 未 知 数值 、 未 知 二 元 值 (如 某 份 文件 或 某 个 网 页 是 否 符合 查询 要 求 )， 
以 及 事件 发 生 的 概率 〈 如 信贷 欺诈 、 响 应 优惠 活动 、 账 户 其 诈 等 ) 。 

本 章 还 会 明确 地 探讨 第 3 章 中 所 绕 开 的 话题 : 模型 拟 合 数据 的 效果 “好 ”究竟 是 什么 意思 ? 
而 这 正 是 本 章 基 本 概念 的 关键 一 一 通过 寻找 “最 优 ” 模 型 参数 用 模型 拟 合 数据 一 一 这 也 是 
在 后 续 章节 中 将 会 继续 出 现 的 概念 。 正 是 由 于 这 个 概念 的 基础 性 ， 本 章 中 的 数学 知识 会 相 
对 较 多 。 但 本 章 仍 会 尽 可 能 减少 数学 概念 ， 以 便 数学 基础 较 注 弱 的 读者 放心 阅读 。 






































本 章 中 的 简化 假设 
本 章 主要 是 介绍 和 讲解 参数 化 建 模 ， 为 了 突出 讨论 重点 、 避 免 过 多 使 用 脚注 ， 在 此 做 


一 些 简化 假设 。 


首先 ， 为 了 方便 讨论 分 类 问题 和 类 概率 估计 问题 ， 本 章 将 只 考虑 二 元 分 类 ， 即 模型 预 
测 的 事件 要 么 发 生 ， 要 么 不 发 生 。 比 如 是 否 对 优惠 活动 做 出 响应 、 是 否 离开 公司 或 是 
否 被 欺诈 等 。 尽 管 这 些 方法 都 可 以 推广 到 多 元 ( 非 二 元 ) 分 类 中 ， 但 这 只 会 增加 不 必 
要 的 复杂 性 。 其 次 ， 因 为 本 章 主要 是 跟 公 式 打 交道 ， 所 以 本 章 将 假设 其 中 所 有 属性 都 
是 数值 型 的 。 在 需要 使 用 这 些 公式 时 ， 有 很 多 技术 都 可 以 将 类 别 型 (符号) 属性 转化 
为 数值 。 最 后 ， 本 章 将 忽略 数值 变量 的 尺度 归 一 化 问题 。 由 于 不 同属 性 (如 年 龄 和 收 
A) 的 取 值 范围 大 不 相同 ， 因 而 需要 被 归 一 为 统一 的 尺度 ， 这 样 不 仅 可 以 提高 模型 的 
可 解释 性 ， 还 会 带 来 一 些 其 他 的 益处 (本 章 将 在 后 文 探讨 ) 。 


在 本 章 中 ， 我 们 姑且 忽略 上 述 的 复杂 问题 。 然 而 ， 其 实 无 论 对 于 哪 种 数据 挖 气 技术 而 
言 ， 处 理 这 些 问题 都 是 非常 重要 也 非常 必要 的 。 











4.1 根据 数学 函数 分 类 


第 3 章 中 讲 到 ， 树 形 模型 可 以 表示 为 实例 空间 中 的 空间 划分 。 如 图 4-1 所 示 ， 甚 中 的 实例 
空间 被 水 平 或 垂直 的 决策 边界 划分 成 了 类 似 的 区 域 。 每 个 区 域 中 所 包含 的 实例 都 应 该 有 相 
似 的 目标 变量 值 。 上 一 章 中 ， 我 们 还 学 会 了 如 何 使 用 箭 这 个 指标 来 测量 同 质 性 ， 并 以 此 来 
选择 决策 边界 。 

创建 同 质 区 域 的 主要 目的 ， 就 是 通过 判断 一 个 新 的 、 从 未 出 现 过 的 实例 会 落 入 哪个 区 域 来 
预测 它 的 目标 变量 值 。 比 如 ， 如 果 一 个 新 用 户 被 划分 入 图 4-1 中 的 左下 角 区 域 ， 那 么 就 可 
以 说 ， 该 用 户 的 目标 变量 值 很 可 能 是 “。” ， 同 理 ， 如 果 它 落 入 右上 角 区 域 ， 那 么 其 目标 变 
量 值 很 可 能 是 “+ 。 

实例 空间 这 一 视角 非常 有 用 : 如 果 去 掉 与 坐标 轴 平 行 的 决策 边界 〈 见 图 4-2) ， 就 能 很 清 
楚 地 看 到 更 好 的 划分 实例 空间 的 方式 。 比 如 ， 如 果 能 画 一 条 和 斜 线 (如 图 4-3 所 示 ) 一 一 
而 不 是 任何 一 条 坐标 轴 的 垂 线 一 一 作为 决策 边界 ， 就 能 近乎 完美 地 按 类 别 对 这 些 实例 进 


行 划分 。 




























































































账户 余额 <50 @ 
且 年 龄 <50 0 

















账户 余额 











图 4-1: 一 个 被 分 类 树 划分 的 数据 集 ， 包 含 四 个 叶 节点 














图 4-2: 图 4-1 中 的 原始 数据 点 ， 无 决策 线 
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决策 边界 





年 龄 = 账户 余额 x(-1.5)+60 


a 
Be 








账户 余额 (以 千 美元 为 单位 ) 














图 4-3: 图 4-2 中 的 数据 集 用 一 条 直线 进行 划分 
这 种 方法 被 称 作 线 性 分 类 器 ， 其 本 质 上 是 多 个 属性 值 的 加 权 和 。 本 章 将 在 后 文中 探讨 它 。 


4.1.1 线性 判别 函数 
我 们 的 目标 是 用 模型 拟 合 数据 ， 这 时 数学 语言 就 能 派 上 用 场 了 。 你 应 该 学 过 ， 在 二 维 坐 标 
系 中 ， 直 线 的 公式 为 y= mx + bp， 其 中 m 是 斜率 ,5b 是 y 轴 的 截 距 ( 即 当 zx = OW y IA). 
图 4-3 中 的 直线 就 可 以 用 这 种 方式 描述 (账户 余额 以 千 美 元 为 单位 ) : 

年 龄 =(-1.5) x 账户 余额 +60 
我 们 把 位 于 直线 上 方 的 实例 x 分 类 为 “+”， 而 把 直线 下 方 的 实例 分 类 为 “。”。 将 这 个 过 程 
用 数学 语言 重新 组 织 一 下 ， 就 得 出 了 一 条 函数 式 ， 而 该 式 即 为 本 章 所 要 探讨 的 所 有 技术 的 
基础 。 该 例 中 的 决策 边界 的 分 类 解析 式 可 见 公式 4-1。 
公式 4-1: 分 类 函数 





























+ 若 -1.0x 年 龄 -1.$x 账 户 余额 +60>0 
类 别 (x) = os Set 
。 若 -1.0x 年 龄 -1.$x 账 户 余额 +60 入 0 
上 式 被 称 作 线 性 判别 式 ， 因 为 该 式 能 够 判别 分 类 ， 而 决策 边界 的 函数 又 是 属性 的 线性 组 合 
(加 权 和 )。 在 本 例 的 二 维 空间 中 ， 线 性 组 合 对 应 一 条 直线 ;在 三 维 空间 中 ， 决 策 边 界 则 是 
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一 个 平面 ， 而 在 更 高 维度 的 空间 中 ， 它 会 是 一 个 超 平面 ( 见 3.3 节 )。 对 我 们 来 说 最 重要 的 
是 模型 可 以 用 属性 值 的 加 权 和 来 描述 。 

因此 ， 该 线性 模型 是 多 变量 有 监督 的 划分 的 一 种 不 同形 式 。 进 行 有 监督 的 划分 的 目的 ， 仍 
旧 是 把 数据 划分 成 目标 变量 值 不 同 的 区 域 。 不 同 的 是 ， 实 现 该 多 属性 建 模 的 方法 是 构建 一 
个 关于 这 些 属性 的 数学 函数 式 。 

3.4 节 展 示 了 分 类 树 与 规则 组 的 对 应 关系 ， 其 中 ， 后 者 是 数据 的 一 种 逻辑 分 类 模型 。 而 线 
性 判别 函数 则 是 一 种 数值 分 类 模型 。 比 如 ， 有 一 个 特征 向 量 x， 其 中 每 个 特征 元 素 为 x;， 
则 其 线性 模型 可 以 写成 公式 4-2 的 形式 。 

公式 4-2: 一 个 一 般 的 线性 模型 









































F(X) = Wy + WX, TWO + 


公式 4-1 若 套 人 具体 示例 ， 则 可 以 写成 这 种 形式 : 





f(x) = 60-1.0x 年 龄 -1.5x 账 户 余额 


要 把 这 个 模型 作为 线性 判别 式 使 用 ， 在 带 入 由 特征 向 量 x 表 示 的 实例 时 ， 我 们 需要 判断 
fx) 是 正 是 负 。 上 文中 已 说 过 ， 在 二 维 空间 中 ， 这 等 同 于 判断 实例 x 是 在 直线 以 上 还 是 
以 下 。 

线性 函数 是 数据 科学 的 主力 之 一 。 我 们 终于 开始 涉及 数据 挖掘 的 话题 了 。 现 在 已 经 有 了 参 
数 化 模型 : 线性 函数 的 权重 (w) 即 为 参数 。 接 下 来 ， 数 据 挖掘 的 任务 就 是 用 参数 化 模型 
来 “ 拟 合 ” 某 个 特定 数据 集 。 有 具体 来 说 ， 就 是 要 找到 这 些 特征 的 一 系列 最 佳 权重 。 

在 完成 模型 学 习 后 ， 这 些 权重 往往 也 被 宽泛 地 视 作 度量 各 特征 重要 性 的 指标 。 大 体 上 ， 特 
征 的 权重 越 大 ， 其 对 目标 变量 分 类 的 重要 性 也 越 大 〈 此 处 假设 所 有 特征 值 都 已 经 被 归 一 化 
到 了 相同 的 取 值 范围 ， 见 本 章 补充 栏 “本 章 中 的 简化 假设 ")。 同 理 ， 如 果 某 个 特征 的 权重 
趋 近 于 0， 那 么 该 特征 往往 可 以 被 忽略 或 删除 。 目 前 我 们 关注 的 是 ， 找 到 一 组 权重 ， 而 它 
不 仅 能 足够 正确 地 判别 训练 数据 ， 还 能 尽 可 能 精确 地 预测 未 知 的 目标 变量 。 


然而 ， 选 择 分 类 的 最 佳 边界 并 非 易 事 。 如 图 4-4 中 的 简单 案例 所 示 ， 图 中 的 训练 数据 可 以 
被 一 个 线性 判别 式 分 类 。 但 如 图 4-5 所 示 ， 事 实 上 有 很 多 线性 判别 式 可 以 完美 地 把 类 别 划 
分 开 ， 它 们 的 斜率 和 截 距 均 不 相同 ， 而 每 一 种 组 合 代表 一 个 不 同 的 数据 模型 。 实 际 上 ， 能 
够 对 该 训练 集 进行 完美 划分 的 线 〈 或 模型 ) 有 无 穷 种 。 那 么 ， 我 们 该 如 何 选择 呢 ? 










































































注 1: 为 了 防止 该 线 穿 过 原点 ， 一 般 需要 引入 权重 w， 即 截 距 。 
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账户 余额 








图 4-4: 包含 两 个 类 的 基础 二 维 实例 空间 











账户 余额 ` 











图 4-5: 许多 不 同 的 线性 边界 都 能 对 图 4-4 中 的 两 类 数据 点 进行 恰当 分 类 


4.1.2 目标 函数 的 最 优化 

此 处 本 章 将 引入 数据 挖掘 中 最 重要 的 基本 概念 之 一 ， 也 是 一 个 连 数据 科学 家 们 都 经 常 忽视 
的 概念 ， 选择 参数 的 目的 ， 或 者 说 目标 ， 是 什么 ? 在 该 示例 中 该 问题 就 转变 为 :“ 我 们 需 
要 选择 哪 种 权重 ? ”一 般 的 做 法 是 定义 一 个 既 能 够 体现 目标 ， 又 能 由 一 系列 特定 权重 和 一 
系列 特定 数据 计算 出 的 目标 函数 ， 然 后 通过 最 大 化 或 最 小 化 目标 函数 选 出 最 优 权 重 值 。 这 
里 有 一 点 很 容易 被 忽略 : 只 有 当 我 们 相信 和 目标 函数 真正 体现 了 目标 时 ， 或 实际 点 来 说 ， 是 
所 能 找到 的 最 佳 替 代 品 时 ， 这 些 权 重 才 真 正 是 “最 优 的 ”。 

不 幸 的 是 ， 要 找到 完全 符合 数据 挖掘 的 真正 目标 的 目标 函数 往往 是 不 可 能 的 。 因 此 数据 科 
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学 家 通常 基于 信念 ”和 经 验 来 选择 目标 函数 。 事 实证 明 , 有 些 选 择 非常 有 效 。 其 中 一 种 选择 
机 ”， 本 章 将 在 展示 一 个 简单 目标 函数 的 特定 示例 后 简单 提 儿 





衍生 出 了 所 谓 的 “支持 向 量 
句 。 然 后 ， 本 章 将 稍微 谈 一 下 线性 回归 模型 〈 而 非 分 类 模型 )， 








的 数据 挖掘 技术 之 一 








ps 





F 以 逻辑 回归 











最 有 用 
为 结尾 。 逻辑 回归 ”这 一 名 称 有 些 用 词 不 当 ， 因 为 它 执行 的 并 


非 回归 任务 〈 即 对 数值 型 目标 变量 进行 估计 )， 而 是 把 线性 模型 应 用 于 类 概率 估计 ， 而 后 
者 在 许多 情况 下 作用 尤为 突出 。 
线性 回电、 逻辑 回归 和 支持 向 量 机 三 者 非常 相似 ， 都 是 用 〈 线 性 ) 模型 拟 合 数据 这 一 基本 

















技术 的 示例 。 它 们 的 关键 区 别 在 于 其 目标 函数 各 不 相同 。 








41.3 示例 : 基于 数据 挖掘 线性 判别 式 


为 了 阐释 线性 判别 函数 ， 本 章 采 用 刻 尾 花 数 据 集 的 一 个 改编 版 本 (http://archive.ics.uci.edu/ 
ml/datasets/Iris) 。 该 数据 集 取 自 UCI 数据 存储 库 (Bache & Lichman, 2013)， 是 一 个 比较 老 
但 非常 简单 的 数据 集 ， 描 述 了 莹 尾 花 〈 一 种 开花 植物 ) 的 不 同 种 类 。 原 始 数 据 集 包含 三 种 
刻 尾 花 的 四 种 属性 ， 而 本 章 的 数据 挖 气 任务 就 是 根据 这 些 属性 来 判断 每 个 写 尾 花 实例 属于 





哪 一 种 。 





为 便于 讲解 ， 本 章 只 选取 其 中 两 种 一 一 山 萤 尾 和 变色 萤 尾 。 数 据 集 包 含 了 一 组 来 

















尾 花 花 杂 的 数据 ， 每 个 花 林 都 由 两 种 尺寸 一 一 “ 花 泊 宽度 ”和 “七 片 宽度 ”( 见 图 4-6) 
中 的 每 





来 描述 。 在 该 数据 集 的 散 点 


图 (图 4-7) 中 ， 这 两 个 变量 




















分 别 由 x 轴 和 yy HARE. E 











自 于 这 两 种 这 

















个 散 点 代表 了 一 条 花 ， 即 一 个 实例 。 其 中 e” REUSE, o” RREZES. 

















图 4-6: SETHA: 花 准 和 花车。 次 尾 伦 数据 集 包含 花 半 和 花车 宽度 的 测量 值 








注 2: 有 时 候 他 们 竟然 很 难 承认 这 一 点 。 
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图 4-7: 应 用 了 两 种 线性 分 类 器 的 数据 集 








图 中 呈现 了 两 条 不 同 的 分 割 线 ， 一 条 由 逻辑 回归 生成 ， 另 一 条 由 另 一 种 线性 方法 一 一 支持 





向 量 机 (后 文 将 简要 探讨 ) 生成 。 可 以 看 到 ， 该 数据 集中 的 数据 点 形成 了 非常 集中 的 两 得 





和 几 个 离 群 点 。 逻 辑 回 归 对 这 两 个 类 别 的 数据 点 进行 了 彻底 的 划分 ， 所 有 变色 葛 尾 实例 都 
在 线 的 左 侧 ， 而 山 葛 尾 实例 则 都 在 右 侧 。 支 持 向 量 机 生成 的 分 割 线 虽 然 几乎 在 两 个 簇 的 正 
中 间 ， 但 是 它 将 星 标 数据 点 G, 1) 分 错 了 类 “。 你 认为 哪 条 分 割 线 更 好 呢 ?” 我 们 将 在 第 5 章 
仔细 学 习 它 们 产生 差异 的 原因 ， 以 及 两 者 的 优 劣 。 目 前 只 需要 知道 ， 两 者 之 所 以 产生 了 不 

















同 的 边界 ， 是 因为 它们 对 不 同 的 目标 函数 进行 了 优化 。 


4.1.4 用 线性 判别 函数 对 实例 进行 评分 和 排序 





许多 情况 下 ， 我 们 不 仅 想 知道 某 个 实例 是 否 属 于 某 个 分 类 ， 还 想 知 道 哪些 实例 更 有 可 能 属 


cal 











于 该 分 类 。 比 如 : 哪些 用 户 最 可 能 对 促销 活动 做 出 响应 ? 哪些 用 户 最 有 可 能 在 合约 到 期 后 











7 











不 再 续 约 ? 解决 以 上 问题 的 一 个 方法 是 ， 建 立 一 个 模型 以 输出 类 成 员 概率 估计 ， 就 像 第 


3 


章 中 用 树 型 归纳 进行 类 概率 估计 一 样 。 另 外 ， 我 们 还 可 以 用 线性 模型 来 处 理 该 问题 。 本 章 





注 3: 我 们 在 原始 数据 集中 加 入 了 星 标点 ， 以 强调 两 种 分 类 方式 产生 的 判别 线 的 区 别 。 





x 
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将 在 下 文中 引入 逻辑 回归 时 再 详细 探讨 这 一 点 。 


在 其 他 情况 下 ， 我 们 并 不 需要 精确 的 概率 估计 ， 而 仅 需 要 评分 。 评 分 可 以 用 来 根据 实例 属 
于 某 一 类 的 概率 来 对 它们 进行 排序 。 比 如 ， 在 目标 市 场 营销 中 ， 因 为 用 来 对 潜在 客户 进行 
营销 的 预算 是 有 限 的 ， 所 以 我 们 想 按 照 客 户 对 营销 活动 做 出 响应 的 可 能 性 对 他 们 进行 排 
序 。 在 这 种 情况 下 ， 不 需要 取得 精确 的 概率 估计 值 ， 只 需要 这 个 排序 足够 合理 ， 能 使 得 排 
序 中 可 能 性 最 高 的 用 户 做 出 响应 的 可 能 性 最 大 即 可 。 


线性 判别 式 可 以 轻易 地 给 出 这 样 的 排序 。 观 察 图 4-4， 假设 “+” 代 表 响 应 者 ，“” 代 表 不 
响应 者 。 假 设 有 一 个 新 实例 x， 其 类 别 未 知 〈 即 我 们 还 未 对 其 提供 特别 活动 )， 那 么 当 其 落 
在 实例 空间 的 哪 一 部 分 时 ， 它 最 可 能 响应 ? 落 在 哪 一 部 分 又 表示 它 最 不 可 能 啊 应 ? 而 哪 一 
部 分 是 不 确定 区 域 ? 

许多 人 认为 右 侧 贴近 决策 边界 的 部 分 是 类 别 最 不 确定 的 区 域 〈 详 见 下 文 对 “间距 ”的 讨 
论 )， 而 远离 决策 边界 的 “+” 区 域 是 最 可 能 响应 的 区 域 。 根 据 上 文 给 出 的 公式 4-2， 当 x 
落 在 决策 边界 上 时 (专业 地 说 ， 即 x 是 线 上 或 超 平面 上 一 点 时 )， Aix) 为 0， 当 x 接近 边界 
It, fx) 相对 较 小 ， 当 x 向 “+” 的 方向 远离 边界 时 ，fx) 为 正 且 非常 大 。 因 此 线性 判别 函 
数 的 结果 ftx) 能 根据 属于 某 个 类 别 的 可 能 性 ， 给 出 一 个 令 人 满意 的 直观 排序 。 


41.5 支持 向 量 机 简介 


虽然 你 如 今 仅仅 接触 了 数据 科学 的 边缘 地 带 ， 但 是 终 有 一 天 你 会 碰 到 支持 向 量 机 (SVM) 
的 概念 。 这 个 概念 甚至 会 让 许多 数据 科学 界 的 大 牛 深 感 妨 惧 。 这 不 仅仅 是 因为 它 的 名 字 临 
塑 模糊 ， 更 是 因为 这 种 方法 虽然 原理 让 人 难以 理解 ， 却 非常 有 效 。 

幸好 我 们 现在 已 经 掌握 了 理解 支持 向 量 机 所 必需 的 概念 。 简 而 言 之 ， 支 持 向 量 机 就 是 线性 
判别 式 。 对 许多 与 数据 科学 家 打交道 的 商业 用 户 来 说 ， 知 道 这 一 点 就 足够 了 。 虽 然 如 此 ， 
但 我 们 可 以 更 仔细 地 了 人 解 一 下 支持 向 量 机 。 在 了 解 了 一 些 细 市 之 后 ， 我 们 就 可 以 对 拟 合 线 
性 判别 式 的 过 程 有 一 个 直观 上 的 认同 。 


和 一 般 的 线性 判别 式 一 样 ， 支 持 向 量 机 也 依赖 特征 的 线性 方程 (如 公式 4-2) 来 对 实例 进 
行 分 类 。 
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你 可 能 也 听 过 非 线性 的 支持 向 量 机 。 简 而 言 之 ， 由 于 非 线性 的 支持 向 量 机 使 
用 了 不 同 的 特征 ( 原 特征 的 函数 )， 因 而 新 特征 的 线性 判别 式 就 是 原 特征 的 
非 线 性 判别 式 .。 
































因此 ， 正 如 之 前 说 过 的 ， 关 键 问题 变 成 了 :“ 用 支持 向 量 机 拟 合 数 据 的 目标 函数 是 什么 ?” 
在 这 里 ， 为 了 让 读者 获得 直观 的 理解 ， 本 章 先 略 过 数学 细节 。 这 其 中 有 两 个 主要 概念 。 
回顾 一 下 图 4-5， 图 中 显示 能 对 实例 进行 分 类 的 线性 判别 式 有 无 穷 多 种 ， 而 选择 一 个 拟 合 
数据 用 的 目标 函数 ， 就 相当 于 从 图 中 选 出 分 类 效果 最 好 的 一 条 线 。 支 持 向 量 机 的 选择 方法 
基于 一 个 简单 而 巧妙 的 概念 : 先 找 出 两 类 别 间 最 宽 的 间距 ， 而 不 是 一 条 分 类 线 ， 如 图 4-8 
中 的 平行 虚线 所 示 。 

支持 向 量 机 的 目标 函数 包含 了 “间距 越 宽 越 好 ”的 概念 。 当 最 宽 的 间距 被 找到 时 ， 就 把 间 
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距 的 中 心 线 作 为 线性 判别 式 〈 见 图 4-8 中 的 实心 中 线 )。 两 条 平行 虚线 之 间 的 距离 叫 作 线性 
判别 式 周 围 的 间距 ， 而 我 们 的 目标 就 是 将 该 间距 最 大 化 。 








账户 余额 











图 4-8: 图 4-2 中 的 数据 点 和 最 大 化 的 间距 分 类 器 


间距 最 大 化 这 一 概念 之 所 以 具有 清晰 直观 的 优势 ， 其 原因 如 下 。 训 练 集 不 过 是 来 自 于 某 个 
总 体 的 样本 ， 而 在 预测 建 模 时 ， 我 们 感 兴趣 的 是 预测 未 出 现 过 的 新 实例 的 目标 变量 。 我 们 
会 将 这 些 新 实例 绘制 成 散 点 图 ， 虽 然 这 些 新 实例 的 分 布 很 可 能 与 训练 集 相似 ， 但 它们 其实 
是 不 同 的 数据 点 。 尤 为 突出 的 是 ， 其 中 的 一 些 正 样本 实例 可 能 会 比 训练 集中 的 任意 一 个 正 
样本 实例 更 靠近 决策 边界 ， 同 样 ， 负 样本 也 是 如 此 。 换 句 话 说 ， 这 些 实例 可 能 会 落 在 间距 
之 中 。 间 距 最 大 化 的 分 类 决策 边界 恰恰 为 给 这 些 点 分 类 提供 了 最 大 的 余地 。 具 体 来 说 ,在 
使 用 SVM 决策 边界 进行 分 类 的 情况 下 ， 某 人 如 果 想 把 新 实例 分 入 错误 的 类 别 ， 那 么 就 
必须 将 其 置 于 间距 深 处 任何 其 他 线性 判别 式 都 无 法 到 达 的 一 点 (或 者 干脆 完全 在 间距 的 
另 一 侧 ) 。 


支持 向 量 机 的 第 二 条 重要 概念 在 于 它 对 落 在 决策 边界 的 错误 一 侧 的 数据 点 的 处 理 方式 。 在 
图 4-2 的 情况 下 ， 不 存在 能 将 所 有 数据 点 完美 分 类 的 单一 直线 决策 边界 。 对 大 多 数 源 于 复 
杂 的 现实 应 用 的 数据 来 说 ， 这 很 真实 一 一 许多 数据 点 会 不 可 避免 地 被 模型 分 错 类 。 但 是 ， 
这 并 不 意味 着 线性 判别 式 不 可 靠 ， 因 为 它 不 必 把 每 个 数据 点 都 正确 分 类 。 然 而 ， 在 用 线性 
国 数 拟 合 数据 时 ， 我 们 不 能 仅仅 从 所 有 可 以 完美 分 类 数据 集 的 决策 线 中 选 一 条 ， 因 为 这 样 
的 完美 分 割 线 可 能 一 条 都 不 存在 ! 
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针对 上 述 问 题 ， 支 持 疝 量 机 再 一 次 给 出 了 直观 而 令 人 满意 的 解决 方案 。 跳 过 数学 部 分 ， 其 
概念 如 下 文 所 述 。 当 使 用 目标 函数 来 测量 某 个 模型 拟 合 训练 集 的 效果 上 时， 我们 会 惩罚 落 入 
决策 边界 的 错误 一 侧 的 数据 点 。 如 果 数 据 线性 可 分 ， 那 么 我 们 不 会 实施 惩罚 ， 而 仅仅 会 使 
间距 最 大 化 ， 如 果 数 据 并 不 线性 可 分 ， 那 么 其 所 能 达到 的 最 佳 拟 合 即 茶 个 兼顾 了 较 宽 的 间 
距 和 较 低 的 总 误差 惩罚 的 平衡 点 。 因 为 对 分 类 错误 的 数据 点 的 惩罚 的 大 小 与 该 点 到 间距 边 
缘 的 距离 成 正比 ， 所 以 支持 向 量 机 会 尽 可 能 只 产生 “小 ”误差 。 该 误差 函数 被 称 作 合 页 损 
失 ( 见 图 4-9 及 4.2 节 中 的 “损失 函数 ”)。 
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84-9: 图 中 展示 了 两 种 损失 函数 。x 轴 代 表 数 据点 到 决策 边界 的 距离 ，y 轴 代 表 一 个 负 实 例 引起 的 
损失 ， 它 可 以 表示 为 关于 该 点 到 决策 边界 距离 的 函数 ( 正 样本 实例 的 情况 与 乙 对 称 )。 如 果 
负 样本 实例 落 在 边界 的 负 样本 一 侧 〈 预 测 正确 ), 则 不 产生 损失 ; 如 果 它 落 在 正 样本 一 侧 (BN 
错误 的 一 侧 ) ， 则 不 同 的 损失 台数 会 不 同 程度 地 惩罚 它 〈 见 下 一 节 中 的 “损失 函数 ”) 


4.2 ”通过 数学 函数 进行 回归 
前 一 章 介 绍 了 选择 富 信息 变量 的 基本 概念 ， 并 且 发 现 该 概念 同时 适用 于 分 类 、 回 归 和 类 概 


率 估计 。 本 章 所 讲 的 使 用 线性 函数 拟 合 数据 的 基本 概念 同样 也 适用 于 分 类 、 回 归 和 类 概率 
估计 。 接 下 来 ， 简 单 讨论 一 下 回归 。 * 






































TE 4: 有 关 用 于 数据 描述 性 分 析 的 线性 回归 的 文献 浩如烟海 ， 我 们 鼓励 读者 对 此 作 深入 研究 。 在 本 书 中 ,我 
们 仅 把 线性 回归 当 作 建 模 技 术 的 一 种 。 这 样 的 方式 的 确 可 能 与 你 学 过 的 回归 分 析 不 同 ， 因 为 我 们 关心 
的 主要 是 线性 回归 的 预测 功能 。 基 他 作者 则 详细 探讨 了 描述 建 模 和 预测 建 模 的 区 别 (Shemueli, 2010) 。 
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对 说 明 问 题 没有 影响 ) 。 


越 远 ， 其 受到 的 惩罚 越 多 。 


且 远 离 决策 边界 的 数据 点 。 然 而 ， 





re a A de 
要 分 挫 多 少 惩罚 。 其 判断 基于 模型 预测 值 的 误差 一 在 当前 语 境 中 ， 即 基于 数据 点 到 
EAI 常用 的 损失 函数 有 数 种 (图 4-9 体现 了 其 中 两 种 ) 。 图 4-9 中 ， 横 轴 
代表 数据 点 到 决策 边界 的 距离 。 分 类 错误 的 数据 点 到 决策 边界 的 距离 为 正 ， 而 分 类 正 
确 的 数据 点 到 决策 边界 的 距离 则 为 负 (图 4-9 中 ， 对 正 负 样 本 数据 点 的 选择 是 随机 的 ， 


支持 向 量 机 使 用 的 是 合 页 损失 。 我 们 之 所 以 如 此 称呼 它 ， 是 因为 其 损失 图 看 上 去 很 像 
合 页 。 如 果 数 据点 没有 落 在 间距 的 错误 一 侧 ， 那 么 合 页 损失 也 数 就 不 会 给 出 惩罚 。 仅 
当 数 据点 落 在 决策 边界 错误 的 一 侧 ， 且 在 间距 边缘 之 外 时 ， 合 页 损失 函数 才 为 正 。 数 
据点 到 间距 边缘 的 距离 增加 时 ， 损 失 函 数值 随 之 线性 增加 。 因 此 ， 数 据点 离 决 策 边 界 


0-1 损失 也 数 ， 正 如 其 名 ， 对 正确 决策 的 损失 值 赋值 为 0， 对 错误 决策 的 损失 值 赋值 为 1。 


为 了 进行 对 比 ， 请 想 一 想 另 一 种 形式 的 损失 函数 
决策 边界 的 距离 的 平方 定义 为 误差 。 它 通常 用 于 数值 型 预测 (回归 ) 而 非 分 类 ,外 
大 地 惩罚 那些 错 得 离谱 的 预测 。 而 在 分 类 问题 中 ， 它 也 能 极 大 地 惩罚 落 向 < 错误 -全 á 





平方 误差 eo 


平方 误差 同样 会 惩罚 那些 落 向 正确 一 侧 且 远离 决策 


边界 的 数据 点 。 因 此 在 大 多 数 商业 问题 中 ， 选 择 平方 误差 作为 分 类 问题 或 类 概率 估计 
问题 的 损失 函数 ， 有 违 “考虑 损失 函数 是 否 与 商业 目标 一 致 ”的 原则 [针对 这 种 不 一 
致 性 ， 有 人 提出 了 合 页 版 的 平方 误差 (Rosset & Zhu, 2007)]. 

















我 们 已 经 探讨 了 理解 线性 回归 所 需 的 绝 大 多 数 预备 知识 。 线 性 回归 模型 的 结构 与 公式 4-2 


线性 判别 式 函 数 式 完全 相同 : 








F(X) = Wy + WX, + WX + 


因此 ， 根 据 参 数 化 建 模 的 总 体 思路 框 
优 的 目标 函数 。 可 能 的 选择 有 多 种 。 





匡 架 ， 我 们 需要 选 出 一 个 可 以 使 模型 拟 合 数据 的 效果 最 
每 个 不 同 的 线性 回归 建 模 过 程 都 会 使 用 一 个 不 同 的 目 








PRB (而 数据 科学 家 必须 仔细 考虑 它 是 否 真 的 适合 该 问题 )。 
最 常见 的 〈《 即 “标准 的 ”) 线性 回归 过 程 有 非常 强大 且 便 捷 的 选择 功能 。 回 想 一 下 ， 回 归 


问题 中 的 目标 变量 是 数值 型 的 。 线 性 E 











函数 用 公式 4-2 来 给 出 目标 变量 的 估计 值 ， 而 训练 数 


据 中 当然 含有 该 目标 变量 的 值 。 因 此 ， 关 于 模型 拟 合 ， 我 们 凭 直觉 首先 想到 的 是 : 估计 值 


与 训练 集中 的 真实 值 的 差异 有 多 大 ? 





误差 ， 针 对 一 个 给 定 的 训练 集 ， 我 人 
其 中 误差 和 最 小 的 模型 就 是 拟 合 数据 效果 最 好 的 模型 。 这 也 正 是 回归 过 程 的 做 法 。 














换 名 话说， 模型 拟 合 的 误差 有 多 大 ? 假设 要 最 小 化 该 
] 可 以 计算 出 每 个 数据 点 的 误差 并 对 这 些 结果 求 和 。 而 








你 可 能 会 注意 到 我 们 实际 上 还 没 确定 目标 函数 ， ea De ae etree as 





的 方法 有 多 种 。 其 中 最 自然 的 方法 就 是 用 其 中 一 个 减 去 另 一 个 ， 然 后 取 结 果 的 绝对 值 。 枯 





此 ， 如 果 预 测 值 为 10， 而 真实 值 为 






































12 或 8， eae 这 被 称 作 绝对 误差， 然后 我 











们 可 以 将 绝对 误差 的 和 最 小 化 ， 或 等 价 地 将 整个 训练 数据 集 的 绝对 误差 的 平均 值 最 小 化 。 
这 很 容易 理解 ， 却 不 是 标准 线性 回归 过 程 的 做 法 。 


标准 线性 回归 过 程 真正 最 小 化 的 是 这 些 误差 的 平方 和 或 平均 值 ， 因 此 该 过 程 也 叫 作 “最 小 
二 乘 ” 回 归 。 为 什么 大 众 如 此 偏爱 最 小 二 乘法 回归 而 很 少 考虑 禁 代 方法 呢 ?” 原 因 只 有 两 个 
F: 方便 。 我 们 在 基础 统计 学 课程 (及 之 后 的 课程 ) 中 就 已 学 过 该 方法 ， 而 且 对 我 们 而 言 
它 触 手 可 得 ， 因 为 许多 软件 包 中 都 装备 了 它 。 最 初 ， 最 小 二 乘 误差 国 数 是 由 18 世纪 著名 
数学 家 高 斯 (Carl Friedrich Gauss) 提出 的 ， 且 其 用 法 有 理论 依据 的 支撑 (与 正 态 分 布 ， 即 
高 斯 分 布 ， 有 关 )。 更 重要 的 是 ， 从 数学 角度 来 说 ， 平 方 误差 非常 方便 。’ 这 在 计算 机 出 现 
之 前 对 人 们 非常 有 帮助 。 从 数据 科学 的 角度 来 看 ， 它 用 在 理论 分 析 方面 也 很 方便 ， 比 如 ， 
它 可 以 将 模型 误差 根据 原因 清楚 地 分 解 开 来 。 而 分 析 师 喜欢 用 平方 误差 的 理由 则 更 加 现 
实 : 它 能 大 大 惩罚 过 大 的 误差 。 至 于 取 误 差 的 二 次 方 作为 惩罚 是 否 合适 ， 就 要 看 特定 的 应 
用 场景 了 。 (为 什么 不 对 误差 取 四 次 方 ， 以 便 更 大 程度 地 惩罚 过 大 的 误差 呢 ? ) 


重要 的 是 ， 任 何 目标 函数 都 有 自己 的 优势 和 劣势 。 最 小 二 乘 回归 的 一 个 严重 缺陷 是 对 数据 
过 于 敏感 : 误差 点 及 其 他 离 群 点 会 大 大 扭曲 最 终 得 出 的 线性 方程 。 在 一 些 商 业 应 用 场景 
中 ， 由 于 缺乏 足够 的 资源 ， 因 而 可 能 不 能 像 在 其 他 应 用 场景 中 一 样 ， 花 费 大 量 时 间 手 动 调 
试 数据 。 在 极端 情况 下 ， 一 些 系 统 完 全 是 自动 构建 模型 并 将 它们 投入 应 用 的 ， 因 而 基建 模 
过 程 必须 比 详细 的 “手工 ”回归 分 析 更 加 稳健 才 行 。 因 此 ， 在 前 一 种 应 用 场景 中 ， 我 们 需 
要 更 加 稳健 的 建 模 方法 (比如 选择 绝对 误差 而 不 是 平方 误差 )。 请 谨 记 ,一旦 见 到 线性 回 
归 仅 仅 作为 一 个 (线性) 模型 拟 合 数据 的 实例 出 现 ， 我 们 就 知道 必须 要 选择 合适 的 目标 函 
数 来 进行 最 优化 一 一 而 且 做 这 些 的 时 候 ， 必 须 牢记 最 终 的 商业 应 用 场景 。 


4.3 ”类 概率 估计 和 人 逻辑 “回归 ” 


之 前 提 到 过 ， 在 许多 应 用 场景 中 ， 我 们 都 需要 估计 新 实例 属于 某 个 相关 类 别 的 概率 。 很 多 
情况 下 ， 我 们 希望 这 些 概率 估计 可 以 在 与 成 本 和 收益 等 因素 相关 的 辅助 决策 中 发 挥 作用 ， 
比如 ， 基 于 大 量 用 户 数据 进行 预测 建 模 的 方法 已 经 广泛 地 被 许多 行业 应 用 于 欺诈 检测 ， 尤 
其 是 在 银行 业 、 电 信 业 和 电子 商务 业 中 。 线 性 判别 式 可 以 用 于 判别 某 个 账户 或 某 笔 交易 中 
是 否 存在 欺诈 行为 。 而 欺诈 监控 部 门 的 主管 可 能 不 仅 想 知道 哪些 情况 下 出 现 欺 诈 的 可 能 性 
最 大 ， 还 想 知 道 哪些 情况 下 公司 可 能 损失 的 钱 最 多 ( 即 哪 些 账户 可 能 会 给 公司 造成 最 大 的 
金钱 损失 )。 因 此 ， 我 们 需要 估计 欺诈 的 实际 概率 。( 第 7 章 将 详细 讨论 商业 问题 中 期 望 值 
的 应 用 。) 

所 幸 ， 在 同样 的 线性 模型 拟 合 数据 的 框架 下 ， 通 过 选择 一 个 不 同 的 目标 函数 ， 我 们 可 以 设 
计 出 一 个 能 给 出 精确 类 概率 估计 的 模型 。 在 完成 上 述 任务 的 所 有 过 程 中 ， 最 常见 的 一 种 被 
称 为 逻辑 回归 。 













































































































































































TES: 有 人 对 于 这 种 选择 的 随机 性 表示 反对 ， 高 斯 对 此 表示 认同 。 
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类 概率 的 精确 估计 到 底 是 什么 ?” 这 个 话题 超出 了 本 书 的 讨论 范围 。 大 致 上 
说 ， 我 们 希望 该 概率 估计 是 经 过 仔细 校正 的 ， 比 如 ， 共 有 100 个 案例 ， 其 类 
概率 估计 为 0.2， 那 么 其 中 大 约 有 20 个 案例 真 的 属于 该 类 。 我 们 还 希望 该 概 
率 估计 有 良好 的 区 分 能 力 ， 即 能 对 不 同 实例 给 出 有 实际 意义 的 不 同 的 概率 估 
计 。 后 一 个 条 件 能 避免 模型 只 把 “基础 比率 ”( 即 总 体 的 普遍 率 ) 作为 对 每 
个 实例 的 预测 。 比 如 ， 总 体 中 有 0.5% 的 账户 存在 欺诈 行为 。 如 果 不 满足 后 
一 个 条 件 的 话 ， 我 们 就 可 能 会 轻率 地 预测 每 个 账户 的 欺诈 概率 均 是 0.5%。 这 
样 的 预测 虽然 是 经 过 校正 的 ， 但 完全 没有 区 分 能 


为 了 理解 逻辑 回归 ， 首 先 需要 考虑 : 只 用 最 基本 的 线性 模型 (公式 4-2) 来 预测 类 概率 会 
出 什么 问题 ?前 文 已 讨论 过 ， 直 觉 上 来 说 和 决策 边界 距离 较 远 的 数据 点 属于 某 一 类 (无 论 
哪 一 类 ) 的 概率 应 该 较 高 ， 而 线性 方程 ftx) 的 结果 给 出 了 这 个 距离 值 。 然 而 ， 这 同样 暴露 
了 问题 所 在 : ftx) 的 值 域 是 从 -oo 到 ， 而 概率 的 值 域 仪 是 0 到 1。 

所 以 我 们 要 另辟蹊径 。 想 一 想 : 为 了 预测 类 成 员 的 可 能 性 ， 还 有 什么 方法 可 以 计算 数据 点 
到 分 割 线 的 距离 fo)。 日 常生 活 中 是 否 存在 其 他 表示 可 能 性 的 概念 ?如 有 果 能 想到 取 值 为 -oo 
到 co 的 概念 ， 就 能 用 线性 公式 为 其 建 模 了 。 

一 个 非常 有 用 的 替代 概念 是 优势 比 ， 即 某 事件 发 生 的 概率 与 不 发 生 的 概率 的 比率 。 比 如 ， 
如 果 某 事件 发 生 的 概率 是 80%， 那 么 该 事件 的 优势 比 就 是 80 : 20 或 4 : 1。 如 果 线 性 方程 
能 给 出 优势 比 ， 那 么 只 需 稍稍 进行 代数 运算 就 能 得 到 事情 发 生 的 概率 。 接 下 来 ， 请 看 一 个 
更 详细 的 示例 。 表 4-1 列 出 了 不 同 的 概率 和 其 相应 的 优势 比 。 

表 4-1: 概率 和 相应 的 优势 比 

概率 相应 的 优势 比 




































































0.5 50 :50 或 1 

0.9 90:109 

0.999 999 : 1 BK 999 

0.01 1 : 99 x 0.0101 
0.001 1 : 999 或 0.001 001 


从 表 4-1 中 优势 比 的 值 域 可 以 看 出 ， 该 指标 仍 不 能 完全 说 明 数 据点 到 决策 边界 的 距离 。 该 
距离 的 值 域 是 从 -oo 到 ww， 而 该 例 中 的 优势 比值 域 则 是 从 0 到。 尽管 如 此 ， 通 过 对 优势 
比 取 对 数 〈 称 作 “ 对 数 优势 比 ")， 我 们 可 以 轻松 地 解决 这 个 思维 惯性 问题 ， 因 为 任何 非 负 
数 取 对 数 之 后 都 有 可 能 变 为 负数 ， 见 表 4-2。 


表 4-2: 概率 、 优 势 比 和 对 应 的 对 数 优势 比 





概率 优势 比 对 数 优 势 比 
0.5 50 :50 或 1 0 

0.9 90:109 2.19 

0.999 999 : 1 BK 999 6.9 

0.01 1 : 99 # 0.0101 —4.6 

0.001 1 : 999 BK 0.001 001 —6.9 
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因此 ， 如 果 不 想 对 类 成 员 概率 估计 建 模 ， 而 仅 想 对 可 能 性 的 某 个 概念 建 模 ， 那 么 我 们 可 以 
使 用 fx) 对 数 优 势 比 进行 建 模 。 
你 看 ， 我 们 另辟蹊径 最 终 却 回 到 了 本 章 的 主题 。 这 就 是 一 个 逻辑 回归 模型 : 本 章 通 篇 考察 
同一 个 线性 方程 fx)， 而 它 被 用 来 测量 相关 “事件 ”的 对 数 优势 比 。 更 具体 地 说 ，ftx) 是 模 
型 所 估计 x 属于 正 向 一 类 的 对 数 优势 比 。 比 如 ， 模 型 可 以 估计 在 合约 到 期 时 ， 一 个 由 特征 
向 量 x 描述 的 用 户 会 离开 公司 的 对 数 优势 比 。 经 过 简单 代数 运算 ， 我 们 就 能 把 该 对 数 优势 
比 转换 为 类 别 成 员 概 率 。 这 一 点 比 本 书 大 部 分 内 容 技 术 性 略 强 些 ， 因 此 本 章 把 它 归 入 了 特 
殊 的 “技术 细节 ”小 节 〈 下 文 )， 该 小 节 还 讨论 了 用 逻辑 回归 拟 合 数据 时 所 需要 的 最 优化 
的 目标 函数 。 你 可 以 详细 阅读 该 小 市 ， 也 可 以 略 过 ， 其 要 点 如 下 。 
。 针对 概率 估计 ， 逻 辑 回归 使 用 了 线性 模型 ， 而 该 模型 同样 可 以 用 于 线性 判别 式 的 分 类 辣 
题 和 预测 数值 型 目标 变量 值 的 线性 回归 问题 。 
。 逻辑 回归 模型 的 输出 结果 可 以 理解 为 类 成 员 的 对 数 优势 比 。 
由 于 这 些 对 数 优 势 比 可 以 直接 转化 为 类 成 员 概率 ， 因 而 逻辑 回归 往往 只 被 当 作 一 种 类 别 
概率 的 模型 。 你 肯定 在 不 自 知 的 情况 下 接触 了 许多 逻辑 回归 模型 ， 因 为 它们 被 广泛 地 应 
用 于 数量 估计 中 ， 如 信贷 违约 概率 、 对 活动 做 出 响应 的 概率 、 账 户 欺诈 概率 、 文 章 的 主 
题 归属 概率 等 。 
在 探讨 过 技术 细节 之 后 ， 我 们 将 会 对 本 章 的 线性 模型 和 第 3 章 的 树 形 结构 模型 进行 对 比 。 
“逻辑 回归 ”是 误 称 
上 文 提 到 ， 在 数据 科学 术语 的 现代 用 法 中 ,“ 逻 辑 回归 ”其 实用 词 有 误 。 分 
类 问题 和 回归 问题 的 区 别 在 于 目标 变量 是 类 别 型 还 是 数值 型 。 逻 辑 回归 进行 
的 是 数值 预测 〈 即 对 对 数 优势 比 进行 预测 )。 但 是 ， 数 据 中 的 目标 变量 却 是 
类 别 型 。 有 关 这 一 点 的 讨论 学 术 性 非常 强 。 重 要 的 是 理解 逻辑 回归 的 功能 。 
它 所 估计 的 是 对 数 优势 比 ， 或 更 宽泛 地 ， 一 个 类 别 型 变量 中 的 某 个 类 别 值 的 
概率 (数值)。 因 而 尽管 它 名 称 如 此 ， 我 们 还 是 认为 它 是 一 个 类 概率 估计 模 
型 ， 而 非 回归 模型 。 


* 逻 辑 回归 : 一 些 技术 细节 
前 方 有 技术 细节 ! 


由 于 逻辑 回归 应 用 如 此 广泛 ， 且 不 像 线性 回归 一 样 直观 ， 因 而 我 们 需要 介绍 
一 些 技术 细节 。 但 跳 过 此 节 也 并 不 影响 你 对 其 他 章节 的 理解 。 
























































































































































那么 严格 地 讲 ， 逻 辑 回 归 模型 的 底线 到 底 是 什么 ? 


设 p(x) 为 模型 对 由 特征 向 量 x 描述 的 数据 点 的 类 别 概率 的 估计 “, 设 类 别 “+” 为 任意 一 个 
我 们 想 对 其 建 模 的 (二 元 ) 事件 : 如 对 优惠 活动 做 出 响应 、 合 约 到 期 后 不 再 续 约 、 遭 受 其 

















TE 6: 通常 我 们 在 技术 处 理 中 用 “^” 的 记号 (如 户 )， 将 模型 的 类 别 概率 估计 值 和 类 别 的 真实 概率 区 分 开 来 。 
虽然 本 书 中 不 会 使 用 该 记号 ， 但 技术 控 读 者 们 需要 将 该 记号 说 记 于 心 。 
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诈 等 ， 则 该 事件 不 发 生 的 概率 就 是 1-p,(x)。 
公式 4-3: 对 数 优势 比 线性 函数 


log -R = f(x) = m +wx tmt 
1- p,(x) 


公式 4-3 表明 ， 对 于 一 个 由 特征 向 量 x 描 述 的 数据 项 而 言 ， 其 类别 的 对 数 优势 比 等 于 线性 
函数 ftx) 的 值 。 由 于 我 们 想 要 的 通常 是 类 别 概率 的 估计 值 (而 非 对 数 优 势 比 )， 因 而 可 以 
由 公式 4-3 解 出 p,(x)， 从 而 得 到 公式 4-4 中 这 个 不 大 好 看 的 量 。 


公式 4-4: 逻辑 函数 





Te 


尽管 公式 4-4 中 的 量 不 大 好 看 ， 然 而 以 特定 的 某 种 方法 绘 出 这 个 公式 之 后 ， 就 可 以 发 现 ， 
它 与 我 们 直觉 上 的 认识 非常 相符 : 远离 决策 边界 的 类 成 员 估计 较为 确定 ， 而 靠近 决策 边界 
的 则 较为 不 确定 。 

在 图 4-10 中 ， 概 率 估计 值 (p(x)， 纵 轴 ) 是 数据 点 到 决策 边界 的 距离 〈 横 轴 ) 的 函数 。 如 
图 所 示 ， 在 决策 边界 上 (x = 0)， 概 率 为 0.5 (相当 于 丢 硬 币 ) ， 在 决策 边界 附近 ， 概 率 几 
平 呈 线性 变化 ， 而 距离 决策 边界 越 远 ， 概 率 的 确定 性 越 高 。 模 型 “ 拟 合 ” 数 据 的 过 程 包括 
了 确定 这 段 近似 线性 的 部 分 的 斜率 ， 由 此 我 们 确定 了 在 远离 决策 边界 时 ， 分 类 的 确定 性 增 
加 得 有 多 快 。 





























六 0 ，x 的 估计 概率 




















图 4-10: 逻辑 回归 以 fx) (数据 点 到 决策 边界 的 距离 ) 的 函数 进行 类 概率 估计 。 该 曲线 之 所 以 被 称 作 
“S 形 函 数 "， 是 因为 它 是 S 形 的 。 它 能 将 概率 置 于 正确 的 取 值 范围 (0 到 1 之 间 ) 


正文 跳 过 的 另 一 个 主要 技术 点 是 : 在 用 逻辑 回归 模型 拟 合 数据 时 使 用 的 目标 函数 是 什么 ? 








76 | 第 4 章 











之 前 提 过 ， 训 练 集 的 目标 变量 是 二 元 的 。 我 们 可 以 将 逻辑 回归 模型 应 用 于 训练 数据 ， 并 
估计 出 训练 数据 中 属于 目标 类 的 每 个 数据 点 。 我 们 想 要 的 理想 情况 是 ， 对 所 有 正 实例 x,， 
都 有 PCc) = 1; 而 对 所 有 人 负 实 例 x.， 都 有 p,(x.) = 0。 可 惜 在 实际 情况 中 ， 我 们 很 难 完美 
pc ea Nar vd rt 对 某 个 促销 活动 做 出 回应 的 问题 ， 
你 就 明白 了 )。 尽 管 如 此 ， 我 们 还 是 希望 p,(x,) 尽 可 能 接近 1, m px.) 尽 可 能 接近 0。 


这 引出 了 逻辑 回归 模型 拟 合 数据 时 所 使 用 的 标准 目标 函数 。 若 有 一 系列 可 以 产生 类 概率 估 
计 px) 的 参数 w， 那 么 就 有 下 面 这 个 函数 。 它 可 以 用 于 计算 某 有 标注 的 实例 属于 正确 分 
类 的 “可 能 性 ”， 请 思考 一 下 它 : 


POCO) 若 x 为 + 
g(x,w) = 




















1- p(x) 若 x 为 。 


函数 g HEARTH x 的 特征 估计 x 的 实际 类 别 概率 。 现 在 我 们 对 有 标注 的 数据 集中 的 所 有 数据 
点 的 g 值 求 和 ， 然 后 对 不 同 的 参数 化 模型 (本 例 中 即 逻 辑 回 归 的 不 同 权重 集合 ) 重复 这 个 
计算 。 因 为 给 出 最 大 g 值 汇 总 的 模型 《权重 集合 )， 其 给 出 的 数据 的 “ 似 然 性 ”也 最 大 ， 
所 以 其 又 称 “ 最 大 似 然 模型 。 最 大 似 然 模型 “通常 ”会 对 正 样本 实例 给 出 最 高 的 概率 ， 
而 对 负 样 本 实例 给 出 最 低 的 概率 。 



































类 标签 和 概率 

你 可 能 认为 目标 变量 就 是 类 成 员 概 率 ， 而 训练 数据 中 目标 变量 的 观测 值 仅仅 会 在 实例 
的 观测 值 为 该 类 时 令 p(x) = 1， 不 为 该 类 时 则 令 PCOo = 0。 然 而 ， 这 和 逮 辑 回归 模型 的 
用 法 不 同 。 以 目标 市 场 营 销 中 的 某 个 应 用 场景 为 例 。 对 用 户 c 而 言 ， 模 型 可 能 会 预测 
他 响应 某 促销 活 动 的 概率 是 p(c 响应 ) = 0.02。 但 在 数据 中 ， 我 们 发 现 该 用 户 确实 响应 
了 该 促销 活动 。 这 了 既 不 意味 着 该 用 户 响 应 的 概率 实际 上 是 1.0， 也 不 意味 着 模型 犯 了 致 
命 错误 。 这 是 因为 ， 用 户 的 响应 概率 可 能 的 确 在 0.02 左右 ， 而 这 实际 上 对 于 许多 活动 
而 言 已 经 很 高 了 ， 只 是 用 户 这 一 次 碰巧 的 确 做 出 了 响应 。 

另 一 种 更 好 的 思路 是 ， 虽 然 训 练 数据 集 和 包含 对 潜在 概率 的 一 组 统计 “提取 ”， 但 它 不 是 


潜在 概率 本 身 。 而 后 逻辑 回归 过 程 会 使 用 线性 eee S (实例 空 
间 中 的 概率 分 布 ) 进行 估计 。 该 估计 即 基 于 上 述 分 布 的 提取 结果 的 观测 数据 。 











4.4 示例 : 对 比 逻 辑 回 归 和 树 型 归纳 
尽管 分 类 树 和 线性 分 类 器 都 使 用 了 线性 决策 边界 ， 然 而 两 者 仍 有 两 个 重要 区 别 。 


(1) 分 类 树 使 用 的 决策 边界 与 实例 空间 的 坐标 轴 垂 直 〈 见 图 4-1)， 而 线性 分 类 器 所 使 用 的 
决策 边界 的 方向 是 任意 的 〈 见 图 4-3)。 这 是 因为 分 类 树 每 次 只 选择 一 个 属性 ， 而 线性 
分 类 器 使 用 的 则 是 所 有 属性 的 加 权 组 合 。 


(2) 分 类 树 是 个 “分 段 式 ”分 类 器 ， 在 必要 时 会 用 分 而 治之 的 方法 对 实例 空间 进行 递归 式 划 
分 。 原 则 上 ,分 类 树 可 以 随意 将 实例 空间 反复 切 分 ， 直 到 它 变 成 极 小 的 区 域 (尽管 第 5 
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章 会 谈 到 为 何 要 避免 这 么 做 )。 而 由 于 线性 分 类 器 仅 把 一 个 决策 平面 放置 在 实例 空间 中 ， 
故而 它 可 以 自由 选择 方向 。 但 该 优势 仅 限于 把 实例 空间 一 分 为 二 的 情况 。 这 是 因为 决策 
平面 是 一 个 包含 了 所 有 变量 的 (线性 ) 公式 ， 而 该 公式 必须 适合 整个 数据 空间 。 
对 于 给 定数 据 集 而 言 ， 事 先 确定 其 最 佳 的 变量 组 合 往往 并 不 容易 。 你 很 可 能 不 会 知道 最 佳 
决策 边界 是 什么 样 的 。 那 么 这 些 区 别 实 际 上 产生 了 什么 结果 呢 ? 


在 将 模型 应 用 到 商业 问题 中 时 ， 不 同 背景 的 企业 利益 相关 者 会 对 模型 产生 不 同 的 理解 ， 比 
如 ， 对 统计 学 知识 背景 较 强 的 人 而 言 ， 逻 辑 回 归 的 作用 非常 易于 理解 ， 但 对 没有 这 类 知识 
储备 的 人 而 言 ， 它 却 非 常用 鹰 难 懂 。 但 是 只 要 不 过 于 庞大 ， 对 于 统计 学 或 数学 知识 背景 较 
弱 的 人 而 言 ， 决 策 树 理解 起 来 要 容易 得 多 。 

为 什么 理解 这 些 区 别 如 此 重要 ? 在 许多 商业 问题 中 ， 数 据 科 学 团队 无 法 最 终 决定 使 用 或 者 
部 署 哪个 模型 。 通 常会 有 至 少 一 个 管理 者 来 “批准 ”模型 的 使 用 ， 而 且 在 许多 情况 下 需要 
有 好 几 个 利益 相关 者 认可 该 模型 。 比 如 ， 如 果 要 通信 公司 部 署 一 个 新 模型 ， 以 便于 派 遗 技 
术 人 员 为 呼叫 客服 的 用 户 做 维修 ， 那 么 运营 支撑 部 门 、 客 户 服务 部 门 和 技术 开发 部 门 的 管 
理 人 员 都 需要 认同 新 模型 利 大 于 次 一 一 因为 对 于 该 问题 而 言 ， 完 美的 模型 是 不 存在 的 。 
我 们 先 在 一 个 简单 的 真实 数据 集中 试用 一 下 逻辑 回归 (http://archive.ics.uci.edu/ml/datasets/ 
Breast+Cancer+Wisconsin+(Diagnostic)) 。 该 数据 集 来 自 威斯康星 州 乳 腺 癌 数 据 集 。 和 几 节 
之 前 的 这 尾 花 数 据 集 和 上 一 章 的 蘑菇 数据 集 一 样 ， 这 个 数据 集 也 来 自 加 州 大 学 欧文 分 校 的 
机 器 学 习 数 据 仓库 。 
其 中 ， 每 个 实例 都 描述 了 一 幅 细胞 核 图 像 的 特征 。 而 且 根 据 专 家 诊断 ， 它 们 被 标记 为 良性 
细胞 或 恶性 细胞 〈 癌 细胞 ) 。 图 4-11 展示 了 一 个 细胞 图 像样 本 。 




























































































每 张 图 中 ， 有 10 个 基本 特征 被 提取 出 来 ， 如 表 4-3 中 所 列 。 
表 4-3: 威斯康星 州 乳腺 癌 数 据 集中 的 属性 



















































































属性 名 Ho g 

半径 中 点 到 周 长 的 平均 距离 

纹理 灰 度 值 的 标准 差 

AK 细胞 集团 的 周 长 

AltA 细胞 集团 的 面积 
平 请 度 半径 长 度 的 局 部 变化 

紧密 度 计算 公式 为 : 半径 7 面积 -1.0 
[H BE 轮廓 的 凹陷 程度 

ML HERR LL BAB BY Be 
对 称 性 细胞 核对 称 性 指标 
分 形 维 数 “海岸 线 近 似 ”-1.0 
诊断 (目标 变量 ) 细胞 样本 的 诊断 结果 : 恶性 / 良性 




















以 上 变量 “由 乳腺 肿块 的 细 针 抽 吸 (FNA) 数字 化 图 像 计算 得 出 ， 描 述 了 图 中 细胞 核 的 特 
征 *。 以 下 计算 了 其 中 每 个 基本 特征 的 三 个 值 : 均值 (_mean)、 标 准 差 (_SE) 和 “最 差 
值 ”或 最 大 值 (三 个 最 大 值 的 均值 ，_worst)， 得 到 了 30 个 测量 属性 。 共 包含 357 幅 良 性 
细胞 图 像 和 212 幅 恶 性 细胞 图 像 。 


Be 4-4 展示 了 基于 该 数据 集 通 过 逻辑 回归 学 习 得 到 的 线性 模型 。 它 可 以 用 于 预测 癌 细 胞 是 
良性 还 是 恶性 。 比 较 突出 的 一 点 是 ， 它 会 把 非 0 的 权重 按 从 高 到 低 进 行 排序 。 


表 4-4: 对 威斯康星 州 乳腺 癌 数 据 集 进行 逻辑 回归 得 到 的 
线性 公式 (变量 的 描述 可 见 正文 及 表 4-3) 














































































































属 性 权重 〈 学 习 后 得 到 的 参数 ) 
平滑 度 _ 最 差 值 22.3 
Mk E 19.47 
凹 点 _ 最 差 值 11.68 
对 称 性 _ 最 差 值 4.99 
[URE 最 差 值 2.86 
凹 度 _ 均 值 2.34 
半径 _ 最 差 值 0.25 
纹理 _ 最 差 值 0.13 
HER _ 标准 差 0.06 
纹理 _ 均值 0.03 
纹理 _ 标准 差 -0.29 
紧密 度 _ 均值 -7.1 
紧密 度 PrE -27.87 
wo (FREE ) -17.7 
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该 模型 的 效果 还 不 错 ， 在 整个 数据 集中 只 预测 错 了 6 个 数据 点 ， 准确 率 约 为 98.9% (Til 
测 正确 的 数据 点 所 占 的 比例 )。 为 了 做 比较 ， 本 章 根据 同一 个 数据 集 学 习 得 到 了 其 分 类 树 
(使 用 了 Weka 的 J48 算法 ) ， 该 分 类 树 参见 图 4-12。 这 棵 树 共有 25 个 节点 ， 其 中 时 节点 
有 13 个 ， 这 就 意味 着 分 类 树 把 所 有 实例 划分 为 了 13 个 分 组 。 该 分 类 树 的 准确 率 为 99.1%， 
略 高 于 逻辑 回归 。 












面积 最 差 值 


P 
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凹 度 _ 均 值 
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图 4-12: 对 威斯康星 州 乳腺 癌 数 据 集 进行 学 习 得 到 的 决策 树 


虽然 这 次 实验 仅 是 为 了 展示 对 同一 个 数据 集 采 用 两 种 方法 的 不 同 结果 ， 但 我 们 也 有 必要 
暂时 偏离 主题 ， 对 这 些 结果 稍 加 思 芳 。 首 先 ，98.9% 的 准确 率 听 起 来 不 错 ， 可 现实 中 真 
能 如 此 吗 ? 虽然 在 数据 挖掘 文献 中 ， 这 样 的 数字 屡见不鲜 ， 但 在 现实 问题 (如 癌症 诊断 ) 
中 ， 对 分 类 器 的 评估 往往 非常 困难 、 非 常 复 杂 。 本 书 将 在 第 7 章 和 第 8 章 中 详细 探讨 该 
评估 问题 。 

















































































其 次 ， 想 一 想 这 两 种 方法 的 结果 。 它 们 的 准确 率 分 别 为 98.9% 和 99.1%。 因 为 分 类 树 的 准 
确 率 略 胜 一 筹 ， 所 以 我 们 很 可 能 会 认为 这 个 模型 更 好 。 但 这 种 想法 正确 吗 ? 这 点 细小 的 差 
异 仅仅 是 由 569 个 数据 点 中 的 一 个 产生 的 误差 引起 的 。 况 且 ， 这 些 准确 率 是 通过 评估 其 各 
自 的 模型 得 出 的 ， 而 评估 模型 和 构建 模型 使 用 了 相同 的 实例 集 。 这 种 评估 的 可 信和 度 又 是 多 
少 ? 第 5 章 、 第 7 章 和 第 8 章 将 对 模型 评估 的 准则 和 缺陷 进行 探讨 。 


45 非 线 性 函数 、 支 持 向 量 机 和 神经 网 络 


目前 为 止 ， 本 章 集中 讨论 了 数据 科学 中 最 常用 的 数值 函数 : 线性 模型 。 线 性 模型 包含 了 种 
类 繁多 的 技术 。 另 外 ， 如 图 4-13 所 示 ， 如 果 我 们 把 更 复杂 的 特征 纳入 线性 函数 中 ， 那 么 
就 可 以 用 这 样 的 函数 来 体现 非 线 性 模型 。 本 例 使 用 了 4.1.3 市 中 的 雍 尾 花 数 据 集 ， 并 在 输 
入 数据 中 加 入 了 莹 片 宽 度 的 平方 这 一 平方 项 。 这 样 得 到 的 模型 是 原 特 征 空间 中 的 一 条 曲线 
(抛物 线 )。 本 例 还 在 原 数 据 集中 加 入 了 一 个 数据 点 ， 即 坐标 为 (4, 0.7) OR EES Bl, JF 
用 星 号 标注 。 
本 书 的 基本 概念 比 应 用 线性 函数 拟 合 要 广泛 得 多 。 当 然 ， 我 们 可 以 设 定 任意 的 复杂 数值 函 
数 ， 并 用 其 参数 拟 合 数据 。 基 于 拟 合 复杂 非 线 性 函数 的 各 类 技术 中 ， 最 常用 的 两 类 被 称 作 
非 线 性 支持 向 量 机 和 神经 网 络 。 
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B 4-13: 包含 非 线性 特征 的 芍 尾 花 数据 集 。 图 中 ， 我 们 在 远 辑 回归 和 支持 向 量 机 (两 种 线性 模型 ) 
中 加 入 了 一 个 特征 一 一 获 片 宽度 的 平方 。 这 样 ， 如 图 所 示 ， 两 种 模型 都 转变 成 了 了 复杂 的 
非 线 性 模型 ( 即 非 线性 决策 边界 ) 
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本 章 讨 论 了 如 何在 模型 中 加 入 复杂 变量 并 用 线性 函数 来 拟 合 它 的 “技巧 "， 而 本 质 上 ， 你 
可 以 把 非 线性 支持 向 量 机 看 作 系 统 性 地 实现 这 个 “技巧 ”的 方法 。 文 持 向 量 机 有 一 个 所 请 
的 “ 核 函 数 "， 它 能 将 原始 特征 映射 到 其 他 特征 空间 中 ， 随 后 我 们 可 以 用 线性 模型 拟 合 这 
个 新 的 特征 空间 ， 如 图 4-13 中 示例 所 示 。 推 而 广 之 ， 我 们 可 以 使 用 一 个 包含 “多 项 式 核 函 
数 ”的 非 线性 支持 向 量 机 ， 本 质 上 也 就 是 说 ， 我 们 可 以 使 用 一 个 原初 特征 的 “高 阶 ” 组 合 
(譬如 ， 特 征 的 平方 项 、 特 征 的 乘积 )。 数 据 科学 家 应 该 熟悉 各 种 形式 的 核 函 数 (线性 、 多 


项 式 型 等 )。 


根据 本 章 的 基本 概念 ， 神 经 网 络 同样 能 执行 复杂 的 非 线 性 数值 函数 。 神 经 网 络 有 一 个 有 趣 
的 不 同 之 处 。 你 可 以 把 神经 网 络 想 成 “一 登 ” 模 型 ， 而 它 的 最 底层 是 原始 特征 。 通 过 这 些 
特征 可 以 得 到 许多 相对 简单 的 模型 ， 姑 且 先 假设 它们 为 逻辑 回归 模型 。 而 其 上 每 一 层 都 会 
输出 一 个 简单 的 模型 (仍然 假设 为 逻辑 回归 模型 )， 并 将 其 用 于 输出 再 上 一 层 的 模型 。 因 
此 ， 在 一 个 两 层 的 模型 组 合 中 ， 我 们 可 以 根据 原始 特征 学 习 得 到 一 个 逻辑 回归 模型 ， 再 把 
该 逻辑 回归 模型 的 结果 作为 下 一 个 待 学 习 的 逻辑 回归 模型 的 特征 。 我 们 可 以 把 这 个 过 程 粗 
上 略 地 想 成 ， 首 先 针 对 问题 的 不 同 角 度 创建 一 系列 的 “专家 ”( 第 一 层 模 型 )， 然 后 考虑 如 何 
把 这 些 专家 的 意见 按 不 同 权重 进行 组 合 (第 二 层 模型 ) 。 7 
神经 网 络 的 概念 愈 发 有 趣 了。 我 们 可 能 会 问 : 如 果 需 要 用 低层 的 逻辑 回归 一 一 即 不 同 
的 “专家 ” 进行 学 习 ， 那 么 每 一 个 逻辑 回归 的 目标 变量 是 什么 ?在 构建 这 种 层 县 
模型 时 ， 有 些 人 用 特定 的 目标 变量 来 构建 代表 特定 事物 的 低层 “专家 ”( 如 Perlich 等 ， 
2013)， 但 更 一 般 性 的 方法 是 ， 神 经 网 络 的 训练 目标 标签 仅 对 最 终 一 层 使 用 ( 即 实 际 的 目 
标 变 量 )。 那 么 ， 如 何 训 练 低层 的 逻辑 回归 呢 ?” 此 时 需要 回 到 本 章 的 基本 概念 上 。 一 合 模 
型 可 以 表达 为 一 个 大 型 的 参数 化 数值 负数 ， 其 参数 就 是 所 有 模型 的 系数 。 因 此 ， 一 旦 决 
定 了 用 哪个 目标 函数 来 表达 所 希望 优化 的 内 容 (比如 基于 茶 些 拟 合 函数 拟 合 训练 数据 的 
效果 )， 我 们 就 可 以 应 用 最 优化 过 程 ， 为 这 个 非常 复杂 的 数值 函数 找 出 最 佳 参 数 。 在 完成 
这 个 过 程 之 后 ， 我 们 会 同时 得 知 所 有 模型 的 参数 、 低 层 “ 专 家 ”的 最 佳 参 数 ， 以 及 组 合 
这 些 模型 的 方法 。 

神经 网 络 适 用 于 多 种 任务 

本 节 描 述 了 用 于 分 类 任务 和 回归 任务 的 神经 网 络 。 神 经 网 络 这 一 领域 博大 精 

深 ， 历 史 悠久 ， 且 在 数据 挖掘 中 应 用 广泛 。 第 2 章 提 及 的 许多 任务 都 使 用 了 

神经 网 络 ， 如 聚 类 、 时 间 序 列 分 析 、 画 像 分 析 等 。 























































































































既然 神经 网 络 听 起 来 这 么 酷 ， 我 们 为 什么 不 一 直 用 它 呢 ? 需要 权衡 的 是 ， 我 们 在 提高 模型 
拟 合 的 灵活 性 时 ， 也 会 提高 对 模型 拟 合 得 过 好 的 可 能 性 。 可 能 出 现 的 情况 是 ， 模 型 能 拟 合 
特定 的 训练 集中 的 细节 ， 却 不 能 找 出 适用 范围 更 广 的 模式 或 模型 。 尤 其 是 ， 我 们 希望 模型 
不 仅 适 用 于 目前 的 训练 集 ， 还 能 适用 于 来 自 同 一 个 总 体 或 者 应 用 场景 的 其 他 数据 集 。 这 种 
考虑 不 是 仅仅 针对 神经 网 络 ， 而 是 广义 地 针对 所 有 模型 。 这 是 数据 科学 领域 中 最 重要 的 概 
念 之 一 ， 也 是 下 一 章 的 主题 。 




















注 7: 可 以 将 其 与 第 12 章 的 集成 方法 的 概念 相 比 较 。 





82 | 第 4 章 


4.6 小结 


本 章 介 绍 了 第 二 种 预测 建 模 技术 ， 它 被 称 为 “函数 拟 合 ”或 “参数 化 建 模 ”。 在 这 种 情况 
下 ， 模 型 是 一 个 部 分 确定 的 公式 一 一 一 个 由 数据 中 属性 定义 的 、 某 些 数值 参数 未 定 的 数值 
型 函数 。 数 据 挖掘 过 程 的 任务 就 是 通过 找到 一 个 ( 某 种 意义 上 的 ) 最 佳 参数 组 合 以 使 模型 
“ 拟 合 ”数据 。 

虽然 函数 拟 合 技术 多 种 多 样 ， 但 是 它们 大 部 分 使 用 同一 种 线性 结构 的 模型 : 属性 值 的 简单 
加 权 求 和 。 而 属性 的 权重 就 是 数据 挖掘 所 要 拟 合 的 参数 。 线 性 模型 技术 包括 了 传统 线性 回 
归 、 逻 辑 回 归 和 诸如 支持 向 量 机 的 线性 判别 式 。 从 概念 上 来 说 ， 这 些 技术 的 关键 区 别 在 于 
其 对 一 关键 问题 一 一 对 数据 的 最 佳 拟 合 究竟 是 指 什 么 一 一 的 不 同 回答 。 拟 合 效 果 好 坏 往 往 
由 “目标 函数 ”描述 ， 不 同 的 技术 使 用 的 目标 函数 不 同 ， 因 此 作为 结果 的 技术 之 间 也 存在 
巨大 差异 。 


我 们 已 经 学 习 了 两 种 截然 不 同 的 建 模 方法 : 树 型 归纳 和 函数 拟 合 ， 并 对 两 者 进行 了 比较 
( 见 4.4 节 )。 本 书 还 引入 了 两 种 评估 模型 的 标准 :模型 的 预测 效果 和 模型 的 可 理解 性 。 为 
了 更 加 了 解数 据 集 ， 更 好 的 方法 是 尝试 在 同一 个 数据 集 内 用 多 种 方法 建 模 。 

本 章 集中 讨论 了 “模型 拟 合 数据 效果 最 优化 ”这 一 基本 概念 。 然 而 ， 这 也 会 引出 数据 挖掘 
中 最 重要 的 基础 问题 一 一 如 果 花 足够 的 功夫 ， 那 么 你 总 能 在 数据 集中 找到 结构 ， 哪 怕 这 样 
的 结构 只 是 偶然 出 现 。 这 样 的 趋势 被 称 作 过 拟 合 。 识 别 和 避免 过 拟 合 是 数据 科学 中 一 个 重 
要 的 主题 ， 将 在 下 一 章 探讨 。 
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基本 概念 : 泛 化 能 力 ; 拟 合 和 过 拟 合 ; 复杂 度 控制 

示例 方法 : 交叉 验证 ; 属性 选择 ; WH; 正则 化 
数据 科学 中 最 重要 的 基本 概念 之 二 就 是 过 拟 合 和 泛 化 能 力 。 如 果 在 某 个 数据 集中 寻找 模式 
时 足够 灵活 ， 那 么 我 们 总 能 找到 一 些 模式 。 然 而 ， 这 些 所 谓 的 “模式 ”可 能 仅仅 是 偶然 出 
现在 数据 中 。 正 如 前 文 所 提 到 的 ， 我 们 想 要 得 到 泛 化 能 力 更 强 的 模式 ， 即 能 很 好 地 预测 尚 
未 观测 到 的 实例 的 模式 。 若 在 数据 集中 发 现 了 看 起 来 非常 好 的 “模式 ”， 但 是 这 个 “模式 ” 
事实 上 只 是 偶然 出 现 ， 不 具有 普遍 的 适用 性 ， 那 么 这 种 情况 就 称 为 对 数据 的 过 拟 合 。 


5.1 泛 化 能 力 

请 考虑 下 面 这 个 (极端 的 ) 例子 。 假 如 你 是 MegaTelCo 的 经 理 ， 负 责 降 低 用 户 流失 率 ， 而 
我 是 某 数 据 挖掘 和 咨询 团队 的 主管 。 你 给 我 的 团队 提供 了 一 个 历史 数据 集 ， 其 中 包括 合约 到 
期 后 六 个 月 内 仍 留存 的 用 户 的 历史 数据 和 流失 的 用 户 的 历史 数据 。 我 的 工作 就 是 像 前 文 提 
到 的 那样 ， 构 建 一 个 基于 用 户 特 征 来 判断 哪些 用 户 可 能 会 流失 的 模型 。 我 通过 挖掘 数据 构 
建 了 一 个 模型 ， 并 把 模型 的 代码 交 给 你 ， 以 便 你 将 该 模型 部 署 到 公司 用 于 降低 用 户 流 失 率 
的 系统 中 。 


当然 ， 你 非常 想 知道 这 个 模型 的 效果 如 何 ， 于 是 让 技术 团队 用 历史 数据 对 模型 进行 检验 。 
你 知道 历史 表现 良好 不 等 于 未 来 也 能 取得 成 功 。 但 经 验 告诉 你 ， 除 非 行业 中 出 现 大 的 变动 
(如 iPhone 的 推出 )， 否 则 用 户 流失 的 模式 一 般 是 稳定 的 。 而 且 你 知道 从 数据 收集 完 到 现 
在 ， 并 设 有 发 生 过 这 样 的 变动 。 于 是 ， 技 术 团 队 用 历史 数据 检验 了 模型 。 技 术 主管 报告 说 
该 模型 的 效果 好 得 惊人 : 模型 准确 率 为 100%， 它 对 所 有 流失 用 户 和 未 流失 用 户 都 进行 了 
正确 分 类 ， 没有 做 出 一 次 误 判 。 
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是 ， 经 验 丰富 的 你 对 这 个 结果 并 不 满意 。 你 已 经 让 专家 们 观察 用 户 流失 行为 很 入 了 ， 
0 果真 的 存在 百分之百 精确 的 预测 指标 ， 那 么 你 做 得 应 该 会 比 现在 好 得 多 。 也 许 这 只 是 
气 好 ? 


其 实 并 非 如 此 。 我 们 的 数据 科学 团队 可 以 让 每 次 测试 都 达到 这 种 效果 ， 其 建 模 过 程 如 下 。 
先 把 每 个 流失 用 户 的 特征 向 量 存储 在 一 个 数据 库 表 中 ， 将 其 命名 为 T。 在 使 用 过 程 中 ， 当 
模型 被 用 于 判别 某 用 户 流失 的 概率 时 ， 它 会 提取 该 用 户 的 特征 向 量 ， 并 在 到 中 对 其 进行 
查找 ， 如 果 找 到 ， 则 显示 “流失 概率 为 100%”， 如 果 没 找到 ， 则 显示 “流失 概率 为 0%”。 
因此 ， 当 技术 团队 把 该 模型 应 用 到 历史 数据 中 时 ， 就 会 发 现 该 模型 完美 预测 了 所 有 情况 。， 


这 个 简单 方法 叫 表 模型 。 它 能 记 住 训练 集 却 毫 无 泛 化 能 力 。 这 会 导致 什么 问题 呢 ? 想 想 在 
实践 中 该 怎么 使 用 这 个 模型 。 当 一 个 之 前 没 出 现 过 的 用 户 的 合约 快 到 期 时 ， 我 们 想 使 用 这 
个 模型 预测 其 流失 的 概率 。 因 为 历史 数据 集中 不 包含 该 用 户 ， 所 以 模型 找 不 到 这 个 用 户 的 
特征 向 量 ， 于 是 就 会 报告 “流失 概率 为 0%”。 实 际 上 ， 该 模型 会 对 所 有 (不 在 训练 集中 
的 ) 用 户 做 出 这 样 的 预测 。 这 个 模型 看 似 完 美 ， 但 在 实践 中 却 毫 无 用 处 ! 

这 个 场景 看 起 来 可 能 很 欧 座 ， 因 为 在 现实 中 没 人 会 把 原始 的 用 户 数 据 往 表 里 一 存 ， 就 声称 
其 是 某 事 件 的 “预测 模型 *。 但 我 们 需要 思考 这 种 做 法 为 何不 正确 ， 因 为 它 预 测 失败 的 原 
因 和 其 他 现实 中 的 数据 挖掘 工作 失败 的 原因 是 相同 的 。 这 个 极端 例子 包含 两 种 相关 的 数据 
科学 基本 概念 : 泛 化 能 力 和 过 拟 合 。 泛 化 能 力 是 模型 本 身 或 建 模 过 程 的 一 种 性 质 ， 有 具备 这 
种 性 质 意味 着 模型 可 以 被 应 用 到 建 模 数据 集 以 外 的 数据 上 。 而 这 个 示例 中 的 模型 却 无 法 应 
用 到 其 他 数据 上 。 它 是 为 原始 数据 集 量 身 定做 (或 “完全 拟 合 ") 的 。 这 种 情况 其 实 就 是 
“过 拟 合 ”。 
明白 这 一 点 其 实 非常 重要 ， 因 为 所 有 数据 集 都 是 总 体 的 一 部 分 。 在 这 个 示例 中 ， 样 本 来 自 
于 手机 用 户 这 一 总 体 ， 而 我 们 希望 模型 不 仅 能 应 用 于 训练 集 ， 还 能 推广 到 整个 总 体 。 有 时 
我 们 会 担心 训练 集 不 能 很 好 地 代表 整个 总 体 ， 但 本 例 的 问题 却 不 在 于 此 。 其 问题 在 于 ， 虽 
然 训练 数据 具有 代表 性 ， 但 是 数据 挖掘 却 没 能 从 中 构建 出 一 个 具有 泛 化 能 力 的 模型 。 


5.2 WWA 


过 拟 合 是 一 种 数据 挖掘 过 程 牺牲 模型 对 新 数据 点 的 泛 化 能 力 ， 从 而 使 其 完美 适用 于 训练 集 
数据 的 倾向 。 前 文中 的 示例 其 实 有 些 勉 强 ， 因 为 其 中 的 建 模 过 程 完全 依赖 于 记忆 功能 ， 而 
这 是 过 拟 合 的 最 极端 情况 。 然 而 ， 所 有 数据 挖掘 过 程 或 多 或 少 都 可 能 出 现 过 拟 合 的 情况 。 
如 果 我 们 仔细 观察 数据 ， 那 么 总 能 从 中 找到 各 种 模式 。 正 如 诺 贝 尔 奖 获得 者 Ronald Coase 
所 说 :“ 如 果 你 拷问 数据 的 时 间 是 够 长 ， 那 么 它 总 会 招供 的 。 

糟糕 的 是 ， 这 个 问题 是 汪 在 的 。 而 甚 解决 之 道 既 不 是 强求 一 个 绝对 不 存在 过 拟 合 的 模型 ， 
因为 所 有 模型 都 存在 这 个 问题 ， 也 不 是 单纯 追求 过 拟 合 程度 较 轻 的 模型 ， 因 为 我 们 需要 权 
衡 模型 的 复杂 度 和 过 拟 合 的 概率 。 有 了 时 我 们 可 能 想 要 更 复杂 的 模型 ， 因 为 它们 可 以 更 好 地 
刻画 应 用 场景 中 的 实际 复杂 度 且 更 加 精确 。 没 有 任何 一 个 选项 或 过 程 能 够 消除 过 拟 合 ， 最 
































































































































































































































注 1: 严格 来 说 ， 这 不 能 百分之百 实现 ， 因 为 数据 中 可 能 存在 两 个 特征 向 量 相同 的 用 户 ， 其 中 一 个 流失 ， 而 
男 一 个 却 未 流失 。 但 在 本 例 中 可 以 忽略 这 种 可 能 性 。 比 如 我 们 可 以 假设 唯一 的 用 户 ID 也 是 特征 之 一 。 
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好 的 方法 就 是 有 原则 地 识别 过 拟 合 和 控制 复杂 度 。 
本 章 后 面 会 进一步 探讨 过 拟 合 、 评 佑 模型 过 拟 合 程度 的 方法 ， 以 及 如 何 尽 可 能 避免 过 拟 合 。 


5.3 ”过 拟 合 检验 


在 讨论 如 何 处 理 过 拟 合 之 前 ， 我 们 需要 先知 道 如 何 识别 过 拟 合 。 


5.3.1 保留 数据 和 拟 合 图 


本 市 将 介绍 一 个 简单 的 分 析 工 具 一 一 拟 合 图 。 拟 合 图 能 以 复杂 度 函 数 的 形式 展示 模型 的 准 
确 率 。 为 了 检验 过 拟 合 ， 还 需要 引入 数据 科学 中 对 评估 很 重要 的 一 个 概念 一 一 保留 数据 。 


前 文中 示例 的 问题 在 于 ， 评 估 模 型 时 用 的 是 训练 集 ， 也 就 是 用 来 建 模 的 数据 ， 而 这 无 法 评 
估 模 型 对 未 出 现 过 的 数据 的 泛 化 能 力 。 因 此 ， 我 们 需要 “保留 ”一 些 目 标 变 量 值 已 知 ， 却 
没有 用 来 建 模 的 数据 。 这 些 数 据 并 非 最 终 用 来 预测 目标 变量 值 的 数据 ， 而 是 用 来 评估 模型 
放 化 能 力 的 数据 。 这 种 做 法 相当 于 实验 室 测 试 。 我 们 会 用 保留 数据 模拟 使 用 场景 ， 对 模 
型 (甚至 是 建 模 人 员 ) 隐藏 保留 数据 的 目标 变量 值 ， 然 后 用 模型 进行 预测 。 之 后 ， 再 通过 
比较 模型 预测 值 和 真实 值 来 评估 模型 的 泛 化 能 力 。 模 型 在 训练 集 上 的 准确 率 (有 时 被 称 作 
“样本 内 ”准确 率 ) 和 在 保留 数据 集 上 的 准确 率 之 间 很 可 能 存在 差异 ， 因 此 此 处 的 保留 数 
据 通 常 被 称 作 “测试 集 ”。 
模型 的 准确 率 取决 于 其 复杂 度 ， 而 复杂 度 体现 在 多 个 方面 ， 本 章 稍 后 会 对 其 进行 探讨 。 我 
们 先 用 训练 集 和 保留 数据 集 的 区 别 来 更 准确 地 定义 拟 合 图 。 拟 合 图 〈 见 图 5-1) 展现 了 随 
着 模型 复杂 度 的 改变 ， 其 应 用 于 训练 集 和 保留 数据 集 时 准确 率 的 差异 。 一 般 情况 下 ， 模 型 
越 复 杂 ， 过 拟 合 的 情况 就 越 严 重 。( 从 技术 上 讲 ， 建 模 过 程 越 灵活 ， 过 拟 合 的 可 能 性 就 越 
大 ,但 本 书 中 不 考虑 该 问题 。) 
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图 5-1: 典型 的 拟 合 图 。 曲 线 上 的 点 代表 模型 在 特定 复杂 度 下 〈 横 坐标 ) 的 预测 准确 率 。 训 练 集 和 测 
试 集 上 的 预测 准确 率 随 模型 复杂 度 的 不 同 而 变化 。 当 模型 复杂 度 较 低 时 ， 准 确 率 不 高 ， 当 模 
型 过 于 复杂 时 ， 模 型 在 训练 集 上 的 准确 率 会 非常 高 。 但 这 实际 上 是 过 拟 合 ， 该 准确 率 会 与 保 
B ( 泛 化 ) 准确 率 截 然 不 同 
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图 5-2 是 前 文中 提 到 的 用 户 流失 示例 中 的 “ 表 模 型 ”的 拟 合 图 。 由 于 这 个 示例 的 极端 性 ， 
这 幅 拟 合 图 也 相对 特殊 。 同 样 ，x 轴 表 示 的 是 模型 的 复杂 度 〈 在 本 例 中 即 表 中 的 行 数 ) ， 而 
》 轴 表示 的 是 错误 率 。 随 着 表格 规模 的 增 大 ， 表 模型 记 住 的 训练 数据 越 来 越 多 ， 每 增加 
一 行 新 数据 ， 训 练 集 的 错误 率 就 随 之 降低 。 最 终 表格 将 大 到 包含 整个 训练 集 (x 轴 上 的 N 
点 )， 此 时 错误 率 将 降 为 0。 然 而， 测试 集 (保留 数据 ) 的 错误 率 从 开始 就 一 直 是 某 个 值 
( 记 为 5)， 并 且 从 来 没有 下 降 过 ， 这 是 因为 训练 数据 集 和 保留 数据 集 是 没有 交集 的 。 而 这 
两 个 数据 集 错误 率 的 巨大 差异 ， 表 明 模 型 确实 记 住 了 训练 数据 。 
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图 5-2: APRA (R) 模型 的 拟 合 图 


基础 比率 

5 到 底 是 什么 呢 ?” 由 于 表 模 型 会 把 每 一 个 新 案例 预测 为 “不 流失 ”， 所 以 它 对 
所 有 “不 流失 ”用 户 的 预测 都 是 正确 的 ， 对 所 有 “流失 ”用 户 的 预测 都 是 错 
误 的 。 错 误 率 就 是 这 些 “ 流 失 ” 用 户 在 总 体 中 所 占 的 比例 。 这 也 称 作 “ 基 础 
比率 ”。 而 永远 选择 多 数 类 的 分 类 器 也 被 称 作 “基础 比率 分 类 器 ”。 

回归 模型 的 对 应 基线 则 是 一 个 总 是 能 预测 出 目标 变量 值 的 平均 数 或 中 位 数 的 
简单 模型 。 

你 偶尔 也 会 听 到 “基础 比率 表现 ”这 样 的 说 法 ， 而 以 上 就 是 它 所 指 的 内 容 。 
下 一 章 会 再 次 回顾 基础 比率 的 概念 。 


























由 于 前 文中 已 经 讨论 了 两 种 截然 不 同 的 建 模 过 程 ， 即 反复 对 数据 进行 划分 (如 树 型 归纳 ) 
和 通过 找到 一 系列 最 佳 参 数 (如 线性 模型 的 权重 ) 来 拟 合 数值 模型 ， 因 而 现在 我 们 可 以 检 
验 两 者 过 拟 合 的 情况 了 。 








5.3.2” 树 型 归纳 的 过 拟 合 问题 

回顾 一 下 在 解决 分 类 问题 时 ， 构 建树 形 结构 模型 的 方法 。 在 因为 被 反复 划分 而 越 来 越 小 的 
数据 子 集中 ， 我 们 用 基本 能 力 来 找 出 重要 的 、 预 测 能 力 强 的 单个 属性 。 为 了 便于 说 明 ， 假 
设 数据 集中 不 存在 特征 向 量 相 同 而 目标 变量 值 不 同 的 两 个 实例 。 如 果 不 断 划分 数据 ， 那 么 
最 终 所 有 的 子 集 都 将 是 纯 集 ， 即 任意 一 个 子 集 里 的 所 有 实例 的 目标 变量 值 都 相同 。 这 些 子 
集 就 是 树 上 的 叶 节 点 。 叶 节点 中 可 能 会 有 多 个 实例 ， 这 些 实例 的 目标 变量 值 都 相同 。 如 
有 必要 ， 可 以 继续 按 属 性 划分 数据 集 ， 直 到 每 个 叶 节 点 上 只 有 一 个 实例 为 止 ， 而 这 就 是 
“Zit” 


我 们 刚刚 做 了 什么 ? 我 们 其 实 构建 了 一 个 前 几 节 中 作为 过 拟 合 极端 例子 提 到 过 的 查找 表 ! 
每 个 输入 树 形 模型 进行 分 类 的 训练 集中 的 实例 都 会 自主 选择 分 支 ， 最 终 到 达 属 于 自己 的 叶 
节点 ， 而 该 叶 节 点 则 对 应 着 包含 该 实例 的 子 集 。 那 么 这 棵 树 在 训练 集 上 的 准确 率 如 何 呢 ? 
答案 是 完全 精确 ， 对 每 一 个 训练 集 实例 它 都 会 做 出 正确 的 分 类 预测 。 


该 模型 能 否 泛 化 ? 或 许 吧 。 该 模型 应 该 比 碍 找 表 略 好 一 些 ， 因 为 每 个 新 实例 都 能 被 分 到 某 
类 ， 而 不 是 只 得 到 一 个 不 匹配 的 结果 。 即 使 是 对 以 前 没有 出 现 过 的 实例 ， 模 型 也 会 给 出 重 
要 的 分 类 。 因 此 ， 赁 经 验 来 检验 模型 在 训练 集 和 测试 集 上 的 准确 率 ， 是 很 有 用 的 。 


在 树 形 结构 模型 中 不 断 分支 ， 直 到 得 到 纯 叶 节点 的 过 程 很 容易 导致 过 拟 合 。 树 形 结构 模型 
在 代表 对 象 方 面 非常 灵活 ， 事 实 上 ， 它 可 以 代表 任何 特征 函数 ， 如 有 果 无 限制 地 分 支 下 去 ， 
那么 它 的 准确 率 甚 至 可 以 达到 任意 水 平 。 但 这 样 的 话 ， 这 棵 树 可 能 会 非常 地 庞大 ， 而 树 的 
复杂 度 与 节点 数 密切 相关 。 


图 5-3 是 树 型 归纳 的 一 幅 典 型 拟 合 图 。 在 这 里 我 们 人 为 限制 了 每 棵 树 的 最 大 规模 ， 并 通过 
x 轴 来 衡量 所 限定 的 节点 数 (方便 起 见 ， 将 其 对 数 化 )。 为 了 代表 每 棵 树 的 规模 ， 我 们 用 训 
练 集 重新 构造 一 个 树 形 模型 ， 并 计算 两 个 值 : 模型 在 训练 数据 集 上 的 准确 率 和 在 保留 数据 
集 (测试 集 ) 上 的 准确 率 。 如 果 叶 市 点 上 的 子 集 不 纯 ， 那 么 可 以 根据 子 集中 目标 值 的 平均 
值 来 预测 目标 变量 ， 正 如 第 3 章 中 讨论 的 那样 。 

这 棵 树 起 初 (图 像 左 侧 ) 很 小 ， 预 测 效 果 也 很 差 。 随 着 树 的 节点 增多 ， 训 练 数据 集 上 和 
保留 数据 集 上 的 准确 率 也 随 之 快速 提高 。 可 以 看 到 ， 训 练 数据 集 上 的 准确 率 总 是 比 保留 数 
据 集 上 的 准确 率 高 一 些 ， 这 是 因为 我 们 在 建 模 时 使 用 的 是 训练 集 。 但 是 从 某 一 点 开始 ， 这 
棵 树 就 出 现 了 过 拟 合 现象 ， 如 保留 数据 集 的 曲线 所 示 ， 这 是 因为 模型 把 训练 数据 集中 的 某 
些 细 刷 包括 了 进去 ， 而 这 些 细 市 在 总 体 中 不 是 普遍 存在 的 。 在 本 例 中 ， 过 拟 合 现 象 大 约 出 
现在 x = 100〈 节 点 数 ) 处 ,也 就 是 图 中 标 出 的 “甜蜜 点 ”。 该 点 之 后 ， 随 着 叶 节 点 上 的 子 
集 越 来 越 小 ， 模 型 的 泛 化 能 力也 越 来 越 差 ， 因 而 越 来 越 容易 出 现 错误 ， 同 时 ， 模 型 在 保留 
数据 集 上 的 预测 能 力也 变 差 。 
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在 训练 数据 集 上 的 准确 3 
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图 5-3: 树 型 归纳 的 典型 拟 合 图 


总 之 ， 根 据 拟 合 图 得 知 ， 数 据 集 的 过 拟 合 现象 大 约 出 现在 节点 数 为 100 处 ， 因 此 我 们 应 该 
把 树 的 规模 限制 到 这 个 值 *。 这 代表 了 它 在 两 个 极端 一 一 一 是 根本 不 划分 数据 ,只 简单 地 使 
用 整个 数据 集中 的 平均 目标 值 ， 二 是 构建 一 棵 完整 的 树 ， 直 到 得 到 纯 叶 市 点 一 一 之 间 的 最 
佳 权 衡 。 

然而 ， 目 前 还 没有 一 种 能 在 理论 上 确定 甜蜜 点 确切 位 置 的 方法 ， 因 此 我 们 还 是 需要 用 基于 
实验 的 技术 来 判断 。 在 探讨 这 些 实验 方法 之 前 ， 我 们 先 检验 一 下 第 二 种 建 模 过 程 的 过 拟 合 
情况 。 


5.3.3 ”数值 函数 的 过 拟 合 问题 

控制 数值 函数 复杂 度 的 方法 有 多 种 ， 许 多 书 都 专门 了 讨论 这 个 话题 。 本 节 讨 论 最 重要 的 一 
种 方法 ，5.9.3 节 会 讨论 另 一 种 。 建 议 读 者 至 少 略 读 高 级 内 容 ( 带 星 号 ) ， 因 为 其 中 介绍 了 
现 阶段 数据 科学 家 普遍 使 用 ， 而 非 数 据 科 学 家 却 一 头 雾 水 的 概念 和 术语 。 本 节 会 对 这 些 概 
念 和 术语 进行 总 结 ， 使 读者 能 在 概念 层面 上 充分 理解 它们 。: 但 是 首先 ， 本 节 要 讨论 一 种 把 



































注 2: 注意 ，100 个 而 点 不 是 一 个 普遍 适用 的 值 ， 而 是 仅 适用 于 这 个 数据 集 的 值 。 如 果 我 们 对 数据 做 出 了 较 
大 改变 ， 或 仅仅 改变 了 建树 算法 ， 就 可 能 需要 重新 画 一 幅 拟 合 图 来 寻找 新 的 甜蜜 点 。 
注 3: 本 节 也 会 提供 足够 的 概念 工具 ， 来 帮助 读者 更 好 地 理解 支持 向 量 机 一 一 它 在 复杂 度 (过 拟 合 ) 控制 方 
面 与 逻辑 回归 几乎 相同 。 

























































































PA BARS ART BE ABATE 


这 个 方法 就 是 在 函数 中 加 入 更 多 变量 (或 称 属性 )。 举 个 例子 ,假设 有 一 个 线性 模型 ， 
式 4-2 所 示 : 


名 





ye 


Jx) = Wo + wx + Woy + Waxs 
随 着 x, IES, BCH ES ATS A. EA x, AOI w, BRA BSB 


有 时 建 模 人 员 还 会 通过 加 入 原 属性 的 非 线性 变形 破坏 方程 的 线性 性 质 。 比 如 ， 我 们 可 以 加 入 
第 四 个 属性 x = xi ， 如 果 觉 得 x, 和 x 的 比值 很 重要 ， 那 么 还 可 以 加 入 第 五 个 属性 xs = ps。 
现在 我 们 需要 找到 以 下 几 个 属性 的 参数 (权重 
KX) = Wo + wx; + wX, + Wars + W4X4 + Wsxs 
无 论 用 哪 种 方式 ， 数 据 集 最 终 都 会 包含 大 量 的 属性 ， 而 使 用 所 有 的 属性 可 以 给 模型 很 大 的 
余地 来 适应 训练 集 。 你 可 以 回忆 一 下 几何 学 ， 二 维 象限 中 的 任意 两 点 决定 一 条 直线 ， 三 维 
象限 中 的 任意 三 点 可 以 决定 一 个 平面 。 这 一 概念 可 以 推广 为 : 随 着 维度 的 增加 ， 我 们 可 以 
用 更 多 的 任意 点 来 拟 合 更 大 的 数据 集 ， 即 使 不 能 完美 拟 合 ， 也 能 通过 增加 维度 数 〈 即 属性 

数 ) 来 改善 拟 合 效果 。 

通常 ， 为 了 避免 出 现 过 拟 合 ， 建 模 人 员 会 仔细 修剪 模型 的 属性 。 他 们 会 用 上 面 介绍 的 保留 
技术 ， 对 单个 属性 的 信息 进 和 和 评估 。 如 果 我 们 有 大 量 人 力 资源 ， 而 属性 又 相对 较 少 ， 那 么 
对 属性 进行 手动 挑选 也 是 一 个 不 错 的 选择 。 但 是 在 现在 的 很 多 应 用 场景 中 ， 会 自动 生成 大 
量 模型 ， 而 其 中 属性 的 数目 也 非常 多 ， 这 时 手动 选 样 属 性 就 不 太 合 适 了 。 比 如 ， 依 赖 数据 
科学 进行 线 上 广告 精准 投放 的 公司 每 周 可 以 构造 上 千 个 模型 ， 其 中 又 可 能 包含 数 百 万 个 属 
性 ， 这 时 就 只 能 自动 选择 属性 了 (或 者 干脆 不 进行 属性 选择 )。 


5.4 示例 : 线性 函数 的 过 拟 合 


4.1.3 节 引 入 了 一 个 简单 的 车 尾 花 数据 集 ， 其 中 包含 两 种 蔓 尾 花 的 描述 性 数据 。 请 回顾 这 一 
示例 ， 并 考虑 其 中 的 过 拟 合 问题 。 


图 5-4 把 原始 弯 尾 花 数 据 集中 的 两 个 属性 一 一 花 办 宽度 和 莹 片 宽 度 一 一 分 别 作为 两 个 坐标 
轴 ， 图 中 每 个 点 都 代表 一 种 蔓 尾 花 ， 实 心 点 是 山 言 尾 ， 0 注意 以 下 几 点 。 
首先 ， 两 种 这 尾 花 截 然 不 同 ， 容 易 区 分 。 实 际 上 ， 图 中 的 两 “ 徐 ” 世 尾 花 数 据点 中 间 有 一 
省 极 和 的 间 陵 。 其次， 四 郊 问 归 和 支持 沿 量 机 部 对 该 数据 集 进 行 了 划分 ， 但 由 于 两 条 分 割 
线 非常 相似 ， 所 以 在 图 中 无 法 分 别 呈 现 。 
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图 5-4: 原始 总 尾 花 数据 集 及 两 种 线性 方法 学 习 得 到 的 模型 (边界 线 )。 本 例 中 ， 线 性 回归 和 支持 向 


量 机 学 习 得 到 了 相同 的 模型 〈 即 图 中 的 决策 边界 线 ) 








图 5-5 中 加 入 了 坐标 为 (3, 1) 的 新 山 营 尾 实 例 。 从 现实 角度 


离 群 点 或 错误 ， 因 为 比 起 山 萤 尾 ， 它 更 接近 变色 曹 尾 的 数据 点 群 。 你 会 发 现 逻 辑 


8 发 ， 我 们 可 能 会 把 该 点 当 作 
回归 线 做 





出 了 相应 的 调整 ， 因 此 依然 能 对 两 类 进行 完美 分 类 ， 而 支持 向 量 机 的 线 却 儿 乎 没有 移动 。 
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图 5-5: 在 图 5-4 HSE TAER PIA- CHIU SEAE 〈 星 形 )。 注 意 ， 逻 辑 回 归 的 模型 发 
生 了 很 大 改变 


我 们 在 图 5-6 中 加 入 了 另 一 个 离 群 点 (4, 0.7)， 这 是 一 个 混入 山 草 尾数 据点 群 的 变色 营 尾 数 
据点 。 同 样 ， 支 持 向 量 机 的 线 几 乎 没有 移动 ， 而 逻辑 回归 线 的 位 置 发 生 了 巨大 变化 。 
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图 5-6: 在 图 5-4 的 芍 尾 伦 数据 集中 加 入 一 个 新 变色 将 尾数 据点 〈 星 形 )。 注 意 ， 逻 辑 回 归 的 模型 再 


度 发 生 了 巨大 改变 























是 离 群 点 ， 不 应 该 对 模型 产生 很 大 的 影响 


图 5-5 和 图 5-6 中 的 逻辑 回归 似乎 都 出 现 了 过 拟 合 问题 。 可 以 说 ， 这 两 次 加 入 的 数据 点 都 
它们 对 物种 “质量 ”的 贡献 很 小 。 但 本 例 中 


逻辑 回归 的 确 受 到 了 这 种 影响 。 只 要 线性 边界 存在 ,逻辑 回归 就 能 找到 它 “， 哪 怕 这 意味 着 
需要 为 适应 离 群 点 而 调整 边界 。 支 持 向 量 机 则 不 像 逻 辑 回 归 那 样 对 单个 数据 点 如 此 敏感 。 


























支持 向 量 机 的 训练 过 程 包含 了 复杂 度 控制 ， 后 面 会 详细 讨论 这 项 技术 。 











添加 的 过 拟 合 点 无 关 。 


注 4: 严格 来 讲 ， 只 有 一 部 分 逻辑 回归 算法 能 确保 找到 线性 边界 ， 有 的 则 不 能 保 


证 。 





但 是 ， 这 与 我 们 在 此 处 











前 文 提 到 ， 另 一 种 使 数值 函数 变 复 杂 的 方法 是 加 入 更 多 变量 。 如 图 5-7 所 示 ， 本 例 依然 使 用 
图 5-6 中 的 数据 集 ， 但 加 入 了 一 个 新 属性 一 一 赤 片 宽度 的 平方 。 加 入 这 个 属性 可 以 使 模型 在 
拟 合 数据 时 更 加 灵活 ， 因 为 我 们 可 以 对 平方 项 分 配 权重 。 从 几何 角度 看 ， 这 意味 着 决策 边界 
不 仅 可 以 是 一 条 直线 ， 还 可 以 是 一 条 抛物 线 ， 新 加 入 的 属性 使 得 两 种 方法 都 能 绘制 出 更 贴 合 
分 布 区 域 的 曲面 。 当 不 得 不 使 用 曲线 (或 曲面 ) 来 进行 拟 合 时 ， 必 须 有 额外 的 自由 度 ， 而 
这 也 使 过 拟 合 的 可 能 性 变 大 了 。 注 意 ， 无 论 支持 向 量 机 如 何 变 化 ， 即 使 现在 其 边界 变 成 了 
曲线 ， 其 训练 过 程 的 本 质 仍 是 选择 边界 附近 的 最 大 间距 ， 而 不 是 对 不 同 的 正 向 类 进行 完美 
划分 。 
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85-7: 在 图 5-6 WATHRESEAUER (EW) 的 欧 尾 花 数 据 集 的 基础 上 ， 给 逻辑 回归 和 支持 向 
量 机 各 加 入 一 个 特征 一 一 萄 片 宽度 的 平方 ， 使 得 两 者 能 构造 更 复杂 的 非 线性 模型 (边界 ) 
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5.5 “示例 : 过 拟 合 为 何 有 害 


前 方 有 技术 细节 1! 

本 章 开 头 说 过 ， 只 会 记忆 的 模型 毫 无 用 处 ， 因 为 它 不 仅 总 是 会 过 拟 合 ， 还 无 
法 泛 化， 但 这 在 技术 上 只 证 明了 在 达到 特定 复杂 度 之 后 ， 过 拟 合 会 成 为 模型 
优化 的 阻碍 ， 而 并 未 解释 过 拟 合 为 何 会 让 模型 越 来 越 差 (如 图 5-3 所 示 )。 本 
节 将 通过 一 个 示例 详细 解释 该 现象 产生 的 过 程 及 原因 ， 但 跳 过 本 节 也 不 影响 
阅读 。 




































































为 什么 模型 效果 会 越 来 越 差 呢 ”简单 地 说 ， 随 着 模型 复杂 度 的 上 升 ， 模 型 会 出 现 有 害 的 虚 
假 相关 关 系 。 而 这 些 相 关 关系 仅 适用 于 建 模 所 用 的 特定 数据 集 ， 在 总 体 中 并 不 是 普遍 存在 
的 。 当 这 些 虚 假 相关 在 模型 中 进行 了 不 正确 的 泛 化 时 ， 过 拟 合 情 况 就 会 出 现 ， 模 型 效果 也 
会 变 差 。 本 市 将 用 一 个 示例 详细 探讨 这 种 现象 发 生 的 原因 。 


考虑 一 个 简单 的 二 分 类 问题 ， 类 别 为 c, 和 c,， 属 性 为 x 和 y。 有 一 个 实例 总 体 ， 其 中 两 类 
实例 各 占 一 半 。 属 性 x 有 两 种 取 值 ，p Fg; 属性 y 也 有 两 种 取 值 ，r 和 s。 在 总 体 中 ,x = 
Pp 在 ci 中 占 75%, 在 c, 中 占 25%， 因 此 x 能 对 类 别 进行 预测 。 我 们 故意 让 y 没有 预测 能 
力 ， 而 在 数据 样本 中 ,yy 值 在 两 类 里 出 现 的 频率 也 很 平均 。 简 单 地 说 ， 我 们 很 难 对 这 些 数 
据 进 行 划 分 ， 因 为 仅 有 一 个 变量 x 能 对 类 别 进行 预测 ， 而 根据 x 进行 预测 ， 所 能 达到 的 最 
高 准确 率 是 75%。 

K 5-1 展示 了 实例 总 体 中 一 个 很 小 的 训练 数据 集 。 如 何 根据 这 些 数据 构建 分 类 树 呢 ? 此 处 
AREF REE, (in A ea Ex 可 以 产生 某 种 影响 ， 我 们 可 以 据 此 对 树 进 行 分 支 ， 生 
成 如 图 5-8 所 示 的 树 。 由 于 只 有 x 能 够 预测 目标 变量 ， 所 以 这 棵 树 就 是 最 优 树 了 。 它 的 错 
误 率 为 23%， 相 当 于 理论 上 的 最 小 错误 率 。 

表 5-1: 一 个 小 型 训练 样本 

































































实 例 x y 类 Bl 
1 p r Cl 
2 p 7 Ci 
3 Pp 7 Cl 
4 9 S Ci 
5 Pp sS © 
6 9 r C5 
7 q S C> 
8 9 r G 











ci: 0% 
c2; 100% 


图 5-8: 过 拟 合 示例 的 分 类 树 。(a) 最 优 树 仅 有 3 个 节点 ，(b) 过 拟 合 的 树 能 更 好 地 拟 合 训练 集 数据 ， 
但 泛 化 准确 率 较 差 ， 因 为 其 外 部 结构 无 法 做 出 最 佳 预测 


然而 ， 表 5-1 中 yy 的 两 个 值 和 s 并 没有 均匀 分 布 在 两 类 中 ， 因 此 y 似乎 也 能 对 目标 变量 
值 进 行 预测 。 尤 其 当 我 们 选择 x = p (实例 1~4) 时 ， 可 以 看 出 y= + 能 完美 预测 出 分 类 ci 
(实例 1~3)。 因 此 对 于 该 数据 集 而 言 ， 我 们 可 以 通过 按 y 值 划分 生成 两 个 新 叶 节 点 来 获得 


信息 增益 。 


该 训练 集 显 示 ， 树 (b) 比 树 (a) 表现 得 要 好 。 前 者 预测 正确 了 8 个 训练 样本 中 的 7 个 ， 而 后 
者 只 预测 正确 了 6 个 。 但 这 是 因为 数据 样本 中 7 = r ADK c 相关 ， 而 在 整个 总 体 中 并 不 
存在 这 样 的 相关 性 。 树 (b) 的 这 个 多 余 分 支 误 导 了 我 们 ， 它 不 仅 无 用 ， 黄 至 还 有 害 。 回 忆 一 
下 ， 整 个 总 体 中 75% 的 x = p 的 实例 分 布 在 c, 中 ，25% 分 布 在 c 中 。 但 是 ， 树 中 的 假 分 支 
y = s 对 类 别 c, 的 预测 在 整个 总 体 中 是 不 正确 的 。 实 际 上 ， 我 们 估计 这 个 假 分 支 导致 的 误差 
要 占 这 棵 树 总 误差 的 八 分 之 一 。 总 的 来 说 ， 树 (b) 的 总 期 望 误差 为 30%， 而 树 (a) 仅 为 25%。 


最 后 ， 要 强调 几 点 。 首 先 ， 这 种 现象 不 只 出 现在 分 类 树 中 。 我 们 选择 树 形 模型 是 为 了 便于 
此 出 假 分 支 ， 但 所 有 模型 都 容易 受过 拟 合 的 影响 。 其 次 ， 这 种 现象 的 出 现 不 是 因为 表 5-1 
中 的 训练 数据 不 典型 或 有 偏 ， 每 个 数据 集 都 是 更 大 的 总 体 的 一 部 分 ， 即 使 抽样 无 偏 ， 样 本 
也 会 存在 波动 。 最 后 ， 正 如 前 文 所 说 ， 能 事先 判断 模型 是 否 出 现 过 拟 合 的 一 般 性 分 析 方法 
不 存在 。 在 本 例 中 ， 我 们 事先 知道 总 体 特征 ， 因 此 可 以 判断 模型 是 否 出 现 了 过 拟 合 ， 然 而 
在 现实 中 ， 你 不 会 事先 得 到 这 样 的 信息 ， 因 此 必须 用 保留 数据 集 来 检测 过 拟 合 现象 。 


5.6 ”从 保留 评估 到 交叉 验证 


本 书 稍 后 会 展示 一 种 用 来 避免 过 拟 合 的 应 用 广泛 的 通用 技术 ， 这 种 技术 能 够 应 用 于 属性 选 
择 和 树 的 复杂 度 等 问题 。 但 我 们 首先 需要 详细 探讨 一 下 保留 评估 。 在 避免 过 拟 合 之 前 ,我 
们 需要 先 注意 别 被 过 拟 合 骗 了 。 本 章 开 头 引 入 了 一 个 概念 ， 即 为 了 对 模型 的 泛 化 能 力 有 一 
个 公允 的 评估 ， 应 该 先 估计 这 个 模型 在 保留 数据 集 (未 用 来 建 模 ， 但 目标 变量 值 已 知 的 数 
据 集 ) 上 的 准确 率 。 保 留 评估 往往 与 其 他 “实验 室 ” 情 境 下 的 评估 非常 类 似 。 


(a) (b) 
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即使 保留 数据 集 的 确 能 给 出 泛 化 能 力 的 估计 ， 这 也 只 是 一 种 单一 估计 罢了 。 我 们 能 信任 这 
种 准确 率 的 单一 估计 吗 ? 最 终 得 到 这 个 估计 结果 ， 可 能 只 是 因为 地 运 地 选 对 了 (或 不 幸 地 
选 错 了 ) 训练 集 和 测试 集 。 本 章 不 会 详细 讨论 计算 置信 区 间 的 方法 ， 但 讨论 其 一 般 的 测试 
过 程 还 是 非常 重要 的 ， 因 为 这 在 很 多 方面 都 很 有 帮助 。 

交叉 验证 是 一 种 更 为 复杂 的 保留 训练 和 保留 测试 过 程 。 我 们 不 仅 想 要 对 泛 化 能 力 的 简单 佑 
计 ， 还 想 要 所 佑 计 出 的 泛 化 能 力 的 一 些 统计 数据 ， 如 均值 和 方差 ， 以 便 了 解 该 泛 化 能 力 在 
多 个 数据 集 之 间 的 变化 。 你 可 能 已 经 在 统计 课 上 学 过 ， 方 差 是 评估 能 力 估计 值 的 置信 度 的 
关键 指标 。 

交叉 验证 也 能 使 有 限 数据 集 发 挥 更 大 的 作用 。 交 叉 验 证 不 是 将 数据 集 拆 分 成 一 个 训练 集 
和 一 个 测试 集 ， 而 是 通过 反复 划分 并 系统 地 交换 训练 集 与 测试 集 ， 计 算 所 有 数据 组 合 的 
估计 值 。 



































构建 模型 “ 实验 室 ” 
建造 建 模 实 验 室 的 基础 设施 可 能 价格 不 菲 且 耗费 时 间 ， 但 在 投资 之 后 ， 模 型 许多 方面 
的 性 能 都 能 在 可 控 的 情况 下 进行 快速 评估 。 然 而 ， 因 为 保留 检验 并 不 能 反映 模型 在 现 
实 世 界 中 遇 到 的 所 有 复杂 因素 ， 所 以 数据 科学 家 需要 努力 理解 实际 应 用 场景 ， 并 尽 可 
能 地 把 实验 室 配置 得 与 之 类 似 ， 以 防 与 现实 差异 太 大 。 举 个 例子 。 一 家 公司 想 用 数据 
科学 来 为 价格 昂 责 的 个 人 定向 广告 进行 精准 投放 。 随 着 活动 的 进行 ， 该 公司 收集 到 了 
越 来 越 多 的 关于 客户 收看 广告 后 是 否 购买 的 数据 ， 这 些 数据 就 可 以 用 来 建立 模型 ， 来 
区 分 应 该 投放 广告 的 人 和 不 应 该 投放 广告 的 人 。 我 们 把 这 个 例子 放 在 一 边 ， 先 来 评估 
一 下 预测 客户 是 否 会 对 广告 做 出 响应 的 模型 的 准确 率 。 


当 模 型 被 投入 使 用 ， 作 用 在 那些 “自然 ”的 客户 后 ， 公 司 会 惊讶 地 发 现 ， 这 些 模 型 并 
没有 在 实验 室 中 表现 得 那么 好 。 这 是 为 什么 呢 ? 虽然 原因 有 很 多 ， 但 最 重要 的 一 个 是 : 
训练 数据 和 保留 数据 与 模型 接触 的 实际 数据 并 不 相符 。 尤 其 是 ， 训 练 数据 中 都 是 已 经 
被 精准 投放 过 该 广告 的 客户 ， 而 在 现实 生活 中 ， 我 们 并 不 知道 客户 的 目标 变量 值 (是 
否 做 出 响应 ) 。 即 使 在 使 用 数据 挖 握 之 前 ， 公 司 也 不 是 简单 地 任意 确定 目标 ， 而 是 根据 
某 些 标准 把 他 们 认为 会 做 出 响应 的 客户 作为 目标 。 在 实际 应 用 中 ， 模 型 面 对 的 是 更 为 
广泛 的 客户 群 ， 而 不 仅仅 是 符合 标准 的 客户 。 训 练 数据 和 实际 数据 的 差异 可 能 是 模型 
效果 退化 的 原因 。 

这 种 现象 不 仅 出 现在 广告 精准 投放 中 。 考 虑 一 下 信用 评分 问题 。 我 们 想 建立 一 个 能 预 
测 客 户 违 约 概率 的 模型 ， 而 数据 中 的 “有 不 良 货 款 ” 和 “无 不 良 贷 款 ” 两 类 都 基于 曾 
经 被 发 放 过 贷款 的 客户 ， 即 我 们 认为 违约 风险 较 低 的 客户 。 

在 这 两 种 情况 下 ， 请 你 考虑 如 何 找到 更 恰当 的 数据 集 来 构建 预测 模型 。 别 忘 了 应 用 第 
1 章 中 的 基本 概念 : 把 数据 当成 你 要 投资 的 资产 。 











交 又 验证 一 开始 会 把 标签 数据 集 划 分 成 x 个 子 集 ， 这 些 子 集 被 称 为 折 双 (fold)。 一 般 情况 
T, 大 等 于 5 或 10。 图 5-9 的 上 半 部 分 就 是 一 个 被 分 为 5 个 折 释 的 标签 数据 集 (原始 数据 
集 )。 随 后 我 们 用 交叉 验证 ， 以 一 种 特殊 的 方式 将 训练 过 程 和 调试 过 程 进行 上 次 迭代 。 如 











图 5-9 WY TERDIRI, EEA IEE, ABA EE MASS, mite 
kl Vit ENE A RR EAA, Al, Ze, A Dk OH EA IA 
R, Wk 的 数据 作为 测试 集 。 
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45-9: 交叉 验证 图 解 。 交 叉 验证 的 目的 是 有 效 利 用 标签 数据 来 估计 建 模 的 效果 。 此 处 展示 了 一 个 5 
重 交 叉 验证 ， 原 始 数据 集 被 随机 分 为 5 个 等 规模 的 子 集 ， 随 即 每 个 子 集 轮流 作为 测试 集 ， 而 
其 余 4 个 则 作为 训练 集 。 最 终 得 到 5 个 不 同 的 准确 率 ， 我 们 可 以 计算 其 均值 和 方差 

每 次 迭代 可 以 得 到 一 个 模型 ， 从 而 得 到 一 个 泛 化 能 力 的 估计 指标 ， 如 准确 率 估 计 。 交 又 验 

证 结束 时 ， 每 个 子 集 都 会 有 一 次 被 作为 测试 集 ， 有 e 次 作为 训练 集 。 此 时 我 们 有 了 所 有 

个 折 苔 的 效果 估计 ， 从 而 能 够 计算 均值 和 标准 差 。 
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5.7 ”用户 流失 数据 集 回 顾 


回想 3.6 节 中 的 用 户 流失 数据 集 。 在 那 一 节 中 ， 整 个 数据 集 既 被 用 作 训练 集 ， 又 被 用 作 测 
试 集 ， 最 终 的 准确 率 为 73%。 该 节 末 尾 提 了 一 个 问题 : 你 相信 这 个 数字 吗 ? 此 刻 你 应 该 已 
经 明白 ,不 应 该 相信 任何 用 训练 集 做 测试 得 到 的 准确 率 ， 因 为 过 拟 合 的 可 能 性 太 大 了 。 既 
然 我 们 学 习 了 交叉 验证 ， 就 不 妨 重新 仔细 地 进行 一 次 评估 。 

图 5-10 展示 了 10 重 交 叉 验证 的 结果 。 图 中 其 实 存在 两 种 模型 ， 上 半 部 分 表示 逻辑 回归 的 
结果 ， 下 半 部 分 则 表示 分 类 树 的 结果 。 更 确切 地 说 ， 我 们 打 乱 了 数据 集 ， 将 其 划分 为 10 
等 份 ， 而 这 10 等 份 轮流 作为 保留 数据 集 ， 另 外 9 份 合 起 来 作为 训练 集 。 各 部 分 中 的 水 平 
线 代 表 该 类 的 10 个 模型 的 平均 准确 率 。 
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图 5-10, 用 户 流失 问题 交叉 验证 的 折 霹 准确 率 。 上 半 部 分 是 逻辑 回归 的 准确 率 ， 我 们 把 舍 有 
20 000 个 实例 的 数据 集 等 分 成 10 个 折 琶 。 下 半 部 分 则 代表 了 对 同样 的 折 亚 所 做 的 分 类 树 
的 准确 率 统计 。 每 幅 图 中 的 水 平 线 代表 折 妓 的 平均 准确 率 注意 y 轴 值 域 的 选择 ， 这 突出 
了 准确 率 的 差异 ) 








我 们 可 以 从 图 中 得 到 许多 信息 。 首 先 ， 经 过 交叉 验证 得 出 分 类 树 的 平均 准确 率 是 68.6%, 
明显 比 之 前 计算 出 的 73% 要 低 ， 这 意味 着 分 类 树 中 的 确 存在 过 拟 合 现象 ， 且 新 数值 CB 
小 值 ) 更 可 信 。 其 次 ， 在 不 同 折 二 情 况 下 ， 模 型 的 效果 存在 差异 ( 折 释 准确 率 的 标准 差 是 
1.1)， 因 此 最 好 既 对 它们 取 平 均 来 大 体 了 解 模型 的 效果 ， 也 求 出 预期 分 类 树 在 这 个 数据 集 
上 的 方差 。 


最 后 ， 通 过 比较 逻辑 回归 和 分 类 树 的 折 县 准确 率 可 知 ， 两 部 分 存在 一 些 共性 ， 比 如 ， 两 
种 模型 在 第 3 个 折合 上 的 效果 都 不 佳 ， 而 在 第 10 个 折 且 上 的 效果 都 较 好 。 但 两 者 仍 是 截 
然 不 同 的 。 值 得 注意 的 是 ， 与 分 类 树 相 比 ， 逻 辑 回归 的 平均 准确 率 略 低 (64.1%)， 而 方 
差 更 高 (标准 差 为 1.3)。 对 这 个 数据 集 而 言 ， 树 形 模 型 可 能 比 逻辑 回归 更 适用 ， 因 为 前 
者 更 稳定 、 效 果 更 好 。 但 这 个 结论 不 是 绝对 的 ， 我 们 会 也 看 到 ， 在 其 他 数据 集 上 其 结果 
可 能 相反 。 


5.8 学 习 曲 线 


如 果 训 练 集 的 大 小 改变 ， 那 么 你 可 能 觉得 从 中 得 出 的 模型 的 泛 化 能 力也 会 改变 。 若 其 他 因 
素 不 变 ， 在 一 定 程度 上 ， 训 练 集 数据 越 多 ， 模 型 的 泛 化 能 力 就 越 强 。 描 绘 模型 泛 化 能 力 与 
训练 集 数据 量 关 系 的 图 线 叫 作 学 习 曲 线 ， 这 也 是 一 种 重要 的 分 析 工 具 。 


图 5-11 展示 了 电信 公司 用 户 流失 问题 的 树 型 归纳 和 风 辑 回归 的 学 习 曲 线 。’ 学 习 曲线 的 形 
状 很 有 特色 。 起 初 ， 建 模 程 序 找到 数据 集中 最 明显 的 规律 时 ， 曲 线 会 较为 陡峭 。 然 后 ， 随 
着 训练 集 的 规模 增 大 ， 更 精确 的 模型 出 现 了 ， 但 因为 数据 量 增加 带 来 的 边际 收益 降低 了 ， 
所 以 学 习 曲 线 的 陡峭 程度 也 降低 了 。 有 时 候 ， 曲 线 会 完全 变 平 ， 因 为 即使 训练 集 再 增 大 ， 
模型 的 准确 率 也 不 会 上 升 了 。 


里 解 学 习 曲 线 和 拟 合 图 (或 称 拟 合 曲线 ) 之 间 的 区 别 很 重要 。 学 习 曲 线 展示 了 随 着 所 使 用 
的 训练 数据 量 的 变化 ， 模 型 泛 化 能 力 ( 仅 在 测试 集 上 ) 的 变化 : 而 拟 合 图 则 展示 了 随 着 模 
型 复杂 度 的 变化 ， 其 泛 化 能 力 的 变化 和 该 能 力 在 训练 集 上 的 变化 ， 与 模型 复杂 度 的 曲线 。 
拟 合 图 通常 用 于 展示 数据 量 固 定 的 训练 集 。 


即使 数据 相同 ， 不 同 的 建 模 过 程 输出 的 学 习 曲 线 也 可 能 千差万别 。 从 图 5-11 中 可 以 看 到 ， 
当 训练 集 较 小 时 ， 逻 辑 回归 的 泛 化 能 力 强 于 树 型 归纳 。 然 而 ， 当 训练 集 数据 量 增 大 时 ， 届 
辑 回归 的 学 习 曲 线 则 更 快 趋 于 平稳 ， 两 条 曲线 交叉 ， 树 型 归纳 随即 占 了 上 风 。 这 种 现象 与 
之 前 所 说 的 “模型 越 灵 活 ， 过 拟 合 越 严重 ”有 关 。 在 特征 相同 的 情况 下 ， 分 类 树 比 线性 还 
辑 回归 更 为 灵活 ， 这 会 导致 两 种 结果 : 一 是 数据 集 较 小 时 ， 树 型 归纳 的 过 拟 合 情 况 可 能 
为 严重 ， 我 们 常 看 到 如 图 5-11 所 示 的 情况 ， 即 逻辑 回归 在 小 数据 集 上 的 效果 更 好 (但 不 总 
是 这 样 ) ， 二 是 图 中 同样 显示 ， 树 型 归纳 的 灵活 性 使 其 在 大 训练 集 上 更 占 优 势 ， 因 为 树 能 
代表 特征 变量 与 目标 变量 之 间 的 大 量 非 线性 关系 。 至 于 树 型 归纳 对 这 些 关 系 的 反映 是 否 真 
实 ， 需 要 我 们 基于 经 验 进行 分 析 ， 即 应 用 诸如 学 习 曲 线 一 类 的 分 析 工 具 。 
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注 5: Perlich 等 人 (2003) 展示 了 树 型 归纳 和 人 逻辑 回归 的 学 习 曲 线 ， 以 解决 多 个 分 类 问题 。 
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图 5-11: 用 户 流失 问题 的 树 型 归纳 和 风 辑 回归 学 习 曲线 。 随 着 训练 集 数据 量 (x 轴 ) 的 增加 ， 泛 化 
能 力 (y 轴 ) 逐渐 增强 。 重 要 的 是 ， 两 种 技术 随 训练 集 数 据 量 的 增长 而 产生 的 提升 率 不 同 ， 
提升 率 的 变化 也 不 同 。 因 为 逻辑 回归 灵活 性 较 低 ， 所 以 在 小 数据 集 上 过 拟 合 情况 较 轻 ， 却 
不 能 完全 反映 数据 的 复杂 度 ， 而 因为 树 型 归纳 更 为 灵活 ， 所 以 虽然 它 在 小 数据 集 上 过 拟 合 
情况 较为 严重 ， 却 能 反映 大 数据 集 的 复杂 规律 





学 习 曲 线 还 有 其 他 分 析 用 途 。 比 如 ， 本 书 已 经 指出 ， 数 据 可 以 作为 一 项 资 
产 ， 而 学 习 曲 线 可 以 告诉 我 们 : 泛 化 能 力 已 经 趋 平 ， 花 费 成 本 获取 更 多 训练 
数据 是 不 值得 的 。 这 种 情况 下 ， 我 们 应 该 接受 当前 的 泛 化 能 力 水 平 ， 或 是 寻 
找 其 他 改进 模型 的 方法 ， 比 如 设计 更 好 的 特征 。 学 习 曲 线 还 可 以 告诉 我 们 : 
泛 化 准确 率 正 持续 上 升 ， 获 得 更 多 的 训练 数据 可 能 是 一 项 很 好 的 投资 。 


























5.9 ”避免 过 拟 合 与 控制 复杂 度 


为 了 避免 过 拟 合 ， 需 要 控制 从 数据 中 得 出 的 模型 的 复杂 度 。 我 们 先 来 看 看 树 型 归纳 的 复杂 
度 控 制 。 因 为 树 型 归纳 较为 灵活 ， 如 果 不 引 入 某 种 机 制 进行 控制 ， 那 么 其 过 拟 合 可 能 会 很 
严重 。 而 通过 在 树 型 归纳 背景 下 的 讨论 ， 我 们 可 以 获得 一 个 同样 适用 于 其 他 模型 的 一 般 性 
机 制 。 
































5.9.1 树 型 归纳 中 的 过 拟 合 规避 
树 型 归纳 的 主要 问题 是 ， 模 型 会 持续 分 裂 ， 直 到 得 到 纯 的 叶 节 点 。 这 会 使 树 变 得 非常 庞大 
非常 复杂 ， 且 出 现 过 拟 合 ， 而 我 们 已 经 知道 了 这 种 问题 的 致命 性 。 树 型 归纳 通常 使 用 两 种 
规避 过 拟 合 的 技术 ， 一 是 停止 分 裂 以 防 树 过 于 复杂 ， 二 是 先 让 树 持续 分 裂 ， 直 至 其 过 于 庞 
大 ， 然 后 剪 枝 ， 缩 小 其 规模 〈 降 低 其 复杂 度 )。 

有 许多 方法 可 以 达到 这 两 个 目的 。 限 制 树 规模 的 最 简单 方法 是 规定 叶 节 点 上 实例 数 的 最 小 
值 。“ 实 例 数 最 小 值 ”停止 准则 背后 的 思想 是 : 在 预测 建 模 中 ， 我 们 要 用 叶 节 点 上 的 数据 ， 
对 未 来 落 在 该 节点 上 的 实例 的 目标 变量 进行 统计 估计 。 如 果 用 于 估计 的 基础 数据 量 非常 
小 ， 那 么 估计 的 准确 率 可 能 会 比较 低 ， 在 我 们 试图 得 到 纯 叶 节点 时 尤其 如 此 。 用 这 种 方法 
控制 复杂 度 的 一 个 好 处 是 ， 树 型 归纳 会 自动 对 数据 量 较 大 的 节点 进行 分 支 ， 并 剪除 数据 量 
较 小 的 分 支 ， 从 而 基于 数据 分 布 自动 调整 模型 。 


关键 问题 是 ， 该 如 何 选 择 国 值 ， 即 叶 节 点 上 至 少 要 有 几 个 实例 ? 50? 30 个? 还 是 100 
个 ?尽管 内 行人 士 通常 会 根据 经 验 做 出 自己 的 选择 ， 但 放 之 四 海 而 皆 准 的 数字 其 实 是 不 存 
在 的 。 然 而 ,研究 人 员 已 经 开发 出 了 用 统计 方式 判断 停止 点 的 技术 。 你 也 许 在 基础 统计 课 
上 学 过 统计 学 中 “假设 检验 ”的 概念 。 大 致 上 ,假设 检验 可 以 用 于 检验 某 些 统计 数据 中 的 
差异 是 否 为 偶然 现象 。 统 计 假 设 在 大 多 数 情 况 下 依赖 “p 值 ”， 该 值 可 以 用 于 判断 统计 中 的 
差异 出 于 偶然 的 概率 ， 若 其 低 于 某 个 赋值 (通常 是 5%， 但 也 因 问 题 而 异 ) ， 假 设 检验 就 会 
判断 该 差异 并 非 出 于 偶然 。 因 此 ， 另 一 种 限制 叶 节 点 上 实例 数 从 而 使 树 停止 分 裂 的 方法 ， 
就 是 对 每 个 叶 节 点 进行 假设 检验 ， 判 断 信息 增益 的 差异 是 否 出 于 偶然 。 如 果 假 设 检验 判断 
并 非 如 此 ， 那 么 树 就 继续 分 裂 。( 见 5.9.3 节 补 充 栏 。) 


另 一 种 降低 过 拟 合 程度 的 方法 是 对 过 大 的 树 进 行 “ 剪 枝 ”， 即 用 叶 节 点 代替 原 有 的 叶 节 点 和 分 
支 。 剪 枝 的 方法 有 很 多 ， 感 兴趣 的 读者 可 以 在 数据 挖掘 文献 中 获取 更 多 细节 。 该 方法 的 总 体 
思路 是 判断 用 叶 节 点 代替 一 系列 叶 节 点 和 分 支 后 ， 准 确 率 是 否 会 下 降 。 如 有 果 没 有 ， 则 进行 剪 
枝 。 我 们 可 以 在 子 树 上 不 断 迁 代 这 个 过 程 ， 直 到 删除 或 代替 任何 分 支 都 会 使 准确 率 下 降 为 止 。 


最 后 ， 提 供 一 种 能 够 推广 到 不 同 建 模 过 程 中 的 方法 。 考 虑 一 个 问题 ， 如 果 构 造 出 复杂 度 不 
同 的 树 怎 么 办 ? 比如， 我们 在 有 一 个 市 点 之 后 就 停止 建树 ， 再 构造 一 个 含 两 个 节点 的 树 ， 
然后 是 三 个 布点 …… 从 而 得 到 一 组 复杂 度 各 异 的 树 。 如 果 有 估计 它们 的 泛 化 能 力 的 方法 ， 
就 可 以 选择 (估计 ) 泛 化 能 力 最 佳 的 那 棵 树 了 1 


5.9.2 ”避免 过 拟 合 的 一 般 方法 

一 般 来 说 ， 如 果 有 一 系列 复杂 度 各 异 的 模型 ， 那 么 通过 估计 它们 的 泛 化 能 力 ， 就 能 选 出 最 
佳 模型 。 但 是 如 何 估 计 它们 的 泛 化 能 力 呢 ”用 ( 带 标签 的 ) 测试 集 吗 ? 这 存在 一 个 严重 的 
问题 : 测试 集 必须 严格 独立 于 模型 ， 这 样 才 能 得 到 模型 准确 率 的 独立 估计 。 比 如 ， 我 们 可 
能 想 估 计 最 终 的 企业 绩效 ， 或 比较 分 别 由 两 种 方法 〈 如 分 类 树 和 逻辑 回归 ) 构建 的 最 佳 模 
型 。 如 果 不 想 比 较 模 型 或 得 到 模型 准确 率 和 (或) 方差 的 独立 估计 ， 那 么 可 以 仅仅 根据 测 
试 数据 选 出 最 佳 模型 。 

但 是 ， 即 使 我 们 想 要 这 些 东 西 ， 也 可 以 继续 。 关 键 是 要 意识 到 ， 第 一 次 训练 / 测试 划分 并 
没有 什么 特别 之 处 。 假 设 要 把 测试 集 留 作 最 后 评估 用 ， 就 可 以 把 训练 集 继续 划分 成 训练 子 
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集 和 测试 子 集 ， 然 后 用 这 个 新 的 训练 子 集 构建 模型 ， 而 用 新 的 测试 子 集 挑 选 最 佳 模型 。 为 
了 避免 混淆 ， 我 们 称 前 者 为 子 训 练 集 ， 称 后 者 为 验证 集 。 验 证 集 与 最 后 的 测试 集 分 开 ， 后 
者 不 会 用 于 做 出 任何 建 模 决策 。 该 过 程 通常 被 称 作 巾 套 保留 测试 。 

回 到 分 类 树 示例 ， 我 们 可 以 由 子 训 练 集 得 到 许多 复杂 度 各 异 的 树 ， 然 后 用 验证 集 估计 它们 
各 自 的 泛 化 能 力 ， 最 优 模型 对 应 的 就 是 图 5-3 中 倒 U 形 保留 曲线 的 顶点 。 假 设 这 次 评估 
得 出 的 最 优 模型 含有 122 个 节点 (“甜蜜 点 ”)， 那 么 我 们 可 以 选择 使 用 该 模型 ， 最 后 借助 
测试 集 来 估计 其 实际 泛 化 能 力 。 我 们 也 可 以 再 做 一 步 : 由 于 我 们 为 了 选择 复杂 度 而 预 留 了 
一 部 分 数据 作为 验证 集 ， 所 以 该 模型 是 用 原 训练 集 的 子 集 构造 的 ， 但 既然 已 经 选 好 了 复杂 
度 ， 那 么 为 什么 不 用 整个 原始 训练 集 构造 一 棵 122 个 布点 的 新 树 呢 ?” 这 样 便 能 两 全 其 美 : 
既 能 在 避免 动用 测试 集 的 情况 下 ， 用 子 训练 集 和 验证 集 得 到 最 佳 的 复杂 度 ， 又 能 用 整个 训 
AR ( 子 训练 集 加 上 验证 集 ) 构造 一 个 最 佳 复杂 度 的 模型 。 


许多 建 模 算法 都 用 以 上 方法 来 控制 复杂 度 ， 通 过 某 种 嵌 套 保留 过 程 来 选择 一 些 复杂 度 参数 
的 值 。 再 次 声明 ， 该 方法 之 所 以 是 嵌 套 的 ， 是 因为 我 们 在 第 一 次 保留 过 程 选择 出 的 训练 集 
上 执行 第 二 次 保留 过 程 。 

我 们 往往 还 会 使 用 底 套 交叉 验证 ， 这 要 更 复杂 些 ， 但 仍 可 以 正常 进行 。 假 设 我 们 想 用 交叉 
验证 来 评估 新 的 建 模 方法 的 泛 化 准确 率 ， 该 方法 包含 一 个 可 调节 的 复杂 度 参数 C， 而 我 们 
不 知道 该 如 何 设置 它 。 按 上 文 所 说 的 步骤 进行 交叉 验证 ， 但 在 对 每 个 折 笃 建 模 之 前 ， 先 用 
训练 集 ( 指 图 5-9) 做 一 次 实验 ， 即 在 该 训练 集 上 做 一 套 完整 的 交叉 验证 ， 以 找到 最 佳 准 
确 率 对 应 的 C 值 。 这 个 实验 的 结果 仅 用 于 设置 C 的 值 ， 以 构建 交叉 验证 的 折 双 的 实际 模 
型 。 然 后 ， 用 整个 训练 集 构建 另 一 个 模型 ， 其 复杂 度 参数 值 为 C， 并 用 对 应 的 测试 集 来 测 
试 。 岩 套 交叉 验证 与 常规 交 又 验证 的 唯一 区 别 是 ， 针 对 每 个 折 盔 ， 我 们 会 先 用 另 一 个 更 小 
的 交叉 验证 来 寻找 C 值 。 

一 旦 理解 了 上 面 的 解释 ， 你 就 会 明白 ， 如 果 要 在 两 种 情况 下 做 5 重 交叉 验证 ， 那 么 整个 过 
程 中 实际 需要 构造 30 个 模型 (是 的 ，30 个 ) 。 因 为 这 种 实验 性 复杂 度 控制 建 模 方法 计算 负 
担 过 重 ， 所 以 直到 近 几 十 年 才 得 以 广泛 应 用 。 


这 种 通过 用 数据 进行 实验 来 选择 复杂 度 和 构建 模型 的 想法 ， 适 用 于 不 同 的 归纳 算法 和 不 同类 型 
的 复杂 度 。 比 如 ， 前 文 提 过 ， 因 为 复杂 度 会 随 特征 集 规 模 的 增 大 而 提高 ， 所 以 往往 需要 精 选 
特征 集 。 一 种 常用 方法 是 ， 用 这 种 嵌 套 保留 过 程 对 许多 不 同 特征 集 进行 建 模 ， 选 出 最 佳 组 合 。 
比如 ， 对 特征 进行 序列 前 向 选择 (SFS)。 该 方法 通过 观察 所 有 用 单独 一 个 特征 构建 的 模 
型 ， 先 用 秽 套 保留 过 程 选 出 一 个 最 佳 的 单独 特征 ， 之 后 再 检验 所 有 用 该 特征 和 男 一 个 其 他 
特征 构建 的 模型 ， 从 中 选 出 最 佳 的 一 个 。 接 下 来 一 遍 志 重复 该 过 程 ， 选 出 三 个 特征 、 四 个 
特征 …… 直 到 添加 特征 无 法 提高 验证 集 上 的 分 类 准确 率 为 止 。( 与 之 相似 的 过 程 是 序列 反 
向 淘汰 。 你 应 该 猪 到 了 ， 该 过 程 就 是 从 所 有 特征 开始 ， 一 次 淘汰 一 个 。 只 要 泛 化 能 力 不 降 
低 ， 该 过 程 就 一 直 继续 。) 

这 是 一 种 通用 的 方法 。 在 拥有 丰富 数据 和 强大 计算 能 力 的 今天 ， 数 据 科学 家 通常 会 用 一 些 
战术 性 的 租 套 保留 测试 (一般 是 租 套 交 又 验证 ) 来 确定 模型 参数 。 

下 一 市 会 展示 该 方法 在 学 习 数 值 函数 的 过 程 中 (如 第 4 章 所 述 ) 控制 过 拟 合 的 另 一 种 方 
式 。 建 议 读者 至 少 略 读 该 节 ， 因 为 其 中 会 介绍 目前 数据 科学 家 常用 的 概念 和 术语 。 
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5.9.3 “参数 优化 中 的 过 拟 合 规避 

前 面 讲 过 ， 避 免 过 拟 合 涉及 复杂 度 控制 : 在 数据 拟 合 和 模型 复杂 性 之 间 找 到 “恰当 ”的 平 

衡 点 。 我 们 已 经 学 习 了 在 用 树 型 归纳 拟 合 数据 时 如 何 控制 树 的 规模 ( 即 复杂 度 )。 而 与 树 

不 同 ， 诸 如 逻辑 回归 之 类 的 公式 ， 不 会 自动 挑选 属性 。 它 们 的 复杂 度 可 以 通过 选择 一 系列 

“恰当 ”的 属性 来 控制 。 

第 4 章 介 绍 了 很 多 类 现在 流行 的 方法 ， 这 些 方法 通过 一 组 可 以 优化 拟 合 数据 的 数值 参数 来 

建 模 。 本 书 到 此 已 经 探讨 了 其 中 的 许多 线性 方法 ， 包 括 线性 判别 式 学 习 、 线 性 回归 和 逻辑 

回归 ,许多 非 线 性 模型 也 能 以 同样 的 方式 拟 合 数据 。 

读 到 这 里 ， 尤 其 是 看 过 5.4 市 后 ， 你 可 能 会 认为 这 些 过 程 也 会 过 拟 合 数据 。 然 而 ， 显 式 的 

优化 框架 使 得 它们 的 复杂 度 控 制 方法 巧妙 而 富有 技术 性 。 其 总 体 策略 是 ， 不 仅 要 优化 对 数 

据 的 拟 合 效果 ， 还 要 优化 一 些 兼 顾 了 拟 合 效 果 和 简洁 程度 的 组 合 。 拟 合 数据 的 效果 越 好 ， 

模型 就 越 好 ;同样 ， 复 杂 度 越 低 ， 模 型 也 就 越 好 。 这 套 一 般 性 方法 叫 作 正 则 化 ， 你 会 经 常 

在 关于 数据 科学 的 探讨 中 听 到 它 。 

前 方 有 技术 细节 ! 

» 本 节 的 剩余 部 分 会 (略微 技术 性 地 ) 简要 讨论 正则 化 的 方法 。 别 担心 无 法 理 
解 其 中 的 技术 细节 ， 你 只 要 记 住 ， 正 则 化 不 仅 要 优化 数据 的 拟 合 ， 还 要 优化 
拟 合 的 组 合 和 模型 的 简易 度 即 可 。 

回忆 第 4 章 所 述 ， 为 了 拟 合 包含 数值 参数 w 的 模型 ， 需 要 找到 能 将 代表 拟 合 效果 的 “目标 

函数 ”最 大 化 的 参数 组 合 : 
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arg max fit (x,w) 
(arg max, 代表 你 想 将 由 所 有 可 能 的 参数 w 构成 的 拟 合 最 大 化 ， 且 想 知道 能 使 之 最 大 化 的 
具体 参数 w。 这 些 便 是 最 终 模型 的 参数 。) 


通过 正则 化 控制 复杂 度 ， 就 是 在 目标 函数 中 加 入 一 个 复杂 度 惩罚 项 : 


arg max [fit(x,w)-— å - penalty(w )] 


4 是 优化 过 程 针 对 惩罚 项 (penalty) 规定 的 权重 ( 相 较 于 拟 合 参数 )。 此 时 ， 建 模 人 员 需 要 
决定 4 的 大 小 和 惩罚 函数 。 

因此 ， 请 回忆 4.3.1 节 中 根据 数据 学 习 标 准 逻 辑 回 归 模 型 的 具体 示例 。 我 们 要 找到 最 有 可 
能 产生 观测 数据 的 线性 模型 一 一 “最 大 似 然 ”模型 一 一 的 数值 参数 w。 我 们 以 下 方 公式 
表示 : 














arg MaX giikeihood (XW) 


(以 上 公式 中 “likelihood” 表 示 “ 似 然 "， 下 面 公式 中 也 是 如 此 。) 而 要 学 习 一 个 正则 化 逻辑 
回归 模型 ， 则 要 计算 : 
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arg max [gixoinood (XW) — 2 - penalty(w )] 











惩罚 项 有 多 种 ， 其 性 质 也 各 不 相同 。" 最 常用 的 惩罚 项 是 权重 平方 之 和 ， 有 时 被 称 作 权重 w 
的 “L2 范 数 ”"。 该 惩罚 项 之 所 以 常用 原因 是 技术 性 的 ， 但 基本 上 ， 如 果 函 数 包含 绝对 值 极 
大 的 权重 ， 则 其 拟 合 效 有 果 往往 也 较 好 。 权 重 平方 之 和 就 能 在 权重 绝对 值 极 大 的 情况 下 给 

较 大 的 惩罚 项 。 

如 果 在 标准 最 小 二 乘 线性 回归 中 加 入 L2 范 数 惩罚 项 ， 就 能 得 到 一 个 统计 过 程 ， 被 称 为 岭 回归 。 
如 果 我 们 选 的 是 绝对 值 之 和 “(而 非 其 平方 之 和 )， 即 “L1 范 数 "， 就 能 得 到 LASSO 回归 (Hastie 
等 ，2009)， 该 回归 一 般 情 况 下 被 称 为 “LI 正则 化 "。 出 于 技术 性 原因 ，L1 正则 化 最 终 会 删 
除 许多 系数 。 因 为 这 些 系数 是 特征 的 权重 之 积 ， 所 以 LI1 正则 化 能 高 效 地 自动 进行 特征 选择 。 
4.1.5 市 提供 了 详细 描述 线性 支持 向 量 机 的 机 制 。 我 们 还 知道 ， 支 持 向 量 机 通过 拟 合 类 之 间 
“最 宽 的 间隙 ”将 “边缘 最 大 化 ”。 第 4 章 还 讨论 了 支持 向 量 机 用 合 页 损失 函数 (ML 4.2 节 中 的 
“损失 函数 ”") 来 惩罚 误差 。 现 在 我 们 可 以 直接 把 以 上 内 容 与 逻辑 回归 结合 起 来 。 特 别 要 注意 的 
是 ， 线 性 支持 向 量 机 学 习 与 刚刚 讨论 的 L2 正则 化 逻辑 回归 几乎 相同 ， 两 者 唯一 的 区 别 是 ， 支 
持 向 量 机 用 的 是 合 页 损失 函数 ， 而 不 是 优化 的 似 然 性 。 支 持 向 量 机 可 对 以 下 公式 进行 优化 : 


arg max [-8 nng (¥,W) — A -penalty(w)] 










































































其 中 合 页 损失 函数 项 gune 被 取消 ， 因 为 合 页 损失 越 低 越 好 。 

最 后 ， 你 可 能 会 对 自己 说 : 这 一 切 都 很 好 ， 但 似乎 有 很 多 神奇 之 处 隐藏 在 这 个 4 参数 中 ， 
而 建 模 人 员 必 须 选 择 它 。 在 诸如 用 户 流失 预测 、 线 上 广告 精准 投放 和 欺诈 检测 等 实际 问题 
中 ， 建 模 人 员 该 如 何 选择 这 个 参数 呢 ? 

其 实 ， 我 们 已 经 有 了 一 种 直接 选择 4 的 方法 。 前 面 讨论 过 ， 我 们 可 以 通过 舱 套 交叉 验证 来 
选择 树 的 最 佳 规模 和 最 佳 特征 集 ， 其 实 选 择 1 的 方法 也 是 一 样 的。 交叉 验证 可 以 在 训练 集 
子 集 上 构建 自动 实验 ， 找 到 最 佳 的 4 值 ， 然 后 用 该 4 值 在 所 有 训练 数据 上 学 习 正则 化 模型 。 
该 过 程 已 是 构建 能 较 好 权衡 数据 拟 合 效果 和 模型 复杂 度 的 数值 模型 的 标准 过 程 。 这 种 对 数 
据 挖 掘 过 程 中 的 参数 值 进行 最 优化 的 方法 叫 作 网 格 搜索 。 












































小 心 “ 多重 比较 ” 

试想 以 下 情景 。 你 开 了 一 家 投资 公司 。 五 年 前 ， 你 想 持 有 一 些 低 市 值 共同 基金 产品 ， 以 
便 日 后 销售 ， 但 是 因为 你 的 分 析 师 们 非常 不 擅长 挑选 低 市 值 股票 ， 所 以 你 采取 了 以 下 
方法 。 先 选择 1000 只 不 同 的 共同 基金 ， 每 只 共同 基金 都 由 罗素 2000 指数 ( 低 市 值 股 票 
的 主要 指数 ) 中 的 随机 几 只 股票 构成 。 你 的 公司 秘密 地 对 所 有 1000 只 基金 进行 了 投资 ， 
并 在 五 年 后 观察 其 收益 。 由 于 它们 本 身 由 不 同 的 股票 构成 ， 所 以 它们 的 回报 也 不 同 ， 有 
的 回报 也 许 和 指数 基本 相同 ， 有 的 回报 更 低 ， 有 的 则 更 高 。 最 好 的 那 只 回报 可 能 比 指数 
高 得 多 。 现 在 ， 你 卖 出 了 大 部 分 基金 ， 只 留 下 了 表现 最 好 的 几 只 ， 并 公开 了 这 个 消息 。 
你 可 以 “诚实 ”地 说 ， 你 手 上 基金 的 五 年 期 回报 大 大 超过 了 罗素 2000 指数 的 回报 。 





























注 6:《 统 计 学 习 基 础 》 里 包含 对 这 些 惩罚 项 的 绝 佳 技术 性 探讨 。 

















这 有 什么 问题 呢 ? 问题 在 于 你 对 股票 的 选择 是 随机 的 ! 你 完全 不 知道 构成 这 些 “ 最 佳 ” 
基金 的 股票 之 所 以 表现 得 好 ， 是 因为 它们 的 确 优 秀 ， 还 是 因为 你 在 一 大 堆 表现 各 异 的 
股票 中 挑选 出 了 最 好 的 几 只 。 如 果 你 抛 1000 个 均 习 硬币 ， 每 个 抛 足够 多 次 ， 那 么 其 
中 一 个 硬币 抛 出 正面 的 概率 可 能 会 超过 50%。 但 是 ， 选 出 “概率 最 高 ”的 那个 硬币 
来 继续 抛 无 疑 是 思春 的 。 以 上 都 是 “多 重 比 较 问 题 ”的 例子 ， 这 些 问题 是 非常 重要 
的 统计 现象 ， 商 业 分 析 师 和 数据 科学 家 必须 时 刻 牢 记 。 关 有 人 在 多 次 实验 后 选 出 最 
好 的 结果 时 ， 一 定 要 当心 。 统 计 学 教材 会 提醒 你 不 要 在 多 次 统计 假设 实验 后 选 出 最 
“突出 ”的 结果 ， 因 为 这 些 结果 通常 违背 了 统计 实验 背后 的 假设 ， 而 结果 的 实际 效果 
也 令 人 怀疑 。 


模型 出 现 过 拟 合 其 实 也 是 因为 多 重 比较 问题 (Jensen & Cohen, 2000) 。 注 意 ， 即 使 是 避 
免 过 拟 合 的 过 程 本 身 也 存在 多 重 比 较 (比如 ,通过 比较 选 出 模型 的 最 佳 复杂 度 ) 。 尽 管 
不 存在 什么 良 方 能 获取 真正 “最 优 ” 的 拟 合 数据 的 模型 ， 但 我 们 可 以 通过 应 用 本 章 中 
讨论 的 保留 过 程 ， 以 及 在 公布 结果 前 仔细 检查 (如 果 可 能 的 话 ) ， 尽 可 能 降低 过 拟 合 。 
比如 ， 我们 可 以 确信 ， 倒 器 形 的 拟 合 图 线 的 顶点 ， 的 确 比 呈 任 意 形状 的 拟 合 图 线 的 顶 
点 反映 的 复杂 度 更 “好 ”。 














5.10 小结 


数据 挖掘 包含 模型 复杂 度 和 过 拟 合 概率 之 间 的 基本 权衡 。 如 果 数 据 所 表现 的 现象 本 身 就 很 
复杂 ， 那 么 就 有 必要 构建 一 个 复杂 的 模型 ， 但 复杂 的 模型 对 训练 数据 过 拟 合 的 风险 也 较 高 
(比如 模型 刻画 了 数据 总 体 中 非典 型 的 特征 )。 过 拟 合 的 模型 很 难 适用 于 其 他 数据 ， 哪 怕 这 
些 数据 都 来 自 同一 个 总 体 。 


各 种 类 型 的 模型 都 可 能 出 现 过 拟 合 现象 。 消 除 过 拟 合 的 万 能 方法 是 不 存在 的 。 最 好 的 方法 
是 通过 用 保留 数据 集 进行 测试 来 识别 过 拟 合 现 象 。 许 多 曲线 都 有 助 于 发 现 和 度量 过 拟 合 现 
象 ， 比 如 ， 拟 合 图 中 的 两 条 曲线 就 以 复杂 度 函 数 的 形式 ， 分 别 表示 了 模型 在 训练 集 和 测试 
集 上 的 效果 。 训 练 集 的 拟 合 图 线 通 常 呈 U 形 或 倒 U 形 (取决 于 绘图 对 象 是 错误 率 还 是 准 
确 率 )。 起 初 ， 模 型 非常 简单 ， 准 确 率 也 很 低 。 随 着 模型 复杂 度 的 提升 ， 准 确 率 也 会 提升 。 
随后 ， 准 确 率 会 趋 于 平稳 。 而 在 过 拟 合 情 况 出 现时 ， 准 确 率 又 开始 下 降 。 再 比如 ， 学 习 曲 
线 描绘 了 测试 集 上 的 模型 效果 与 所 用 训练 数据 量 的 关系 ， 通 常情 况 下 ， 模 型 效果 随 数据 量 
增 大 而 提升 ， 但 不 同 模型 的 提升 率 和 最 终 的 浙 近 性 能 各 不 相同 。 


交叉 验证 是 一 种 常用 的 实验 方法 ， 它 规定 了 一 种 划分 单个 数据 集 的 系统 性 方法 。 它 能 生成 
多 个 评估 指标 ， 而 这 些 指标 可 以 告诉 数据 科学 家 模型 的 平均 水 平和 预期 变化 。 

控制 模型 复杂 度 以 避免 过 拟 合 的 一 般 方法 叫 模型 正则 化 ， 具 体 技术 包括 剪 枝 〈 对 过 大 的 分 
类 树 进行 修剪 )、 特 征 选 择 ， 以 及 在 用 于 建 模 的 目标 函数 中 加 入 显 式 复杂 度 惩罚 项 。 

































































第 6 章 


HWE, BAR 





基本 概念 : 计算 由 数据 描述 的 对 象 的 相似 性 ; 运用 相似 性 进行 预测 ; 基于 相似 性 

划分 聚 类 

示例 方法 : 寻找 相似 个 体 ; 最 近邻 法 ; 聚 类 方法 ; 用 于 计算 相似 性 的 距离 度量 方法 
相似 性 是 许多 数据 科学 方法 和 商业 问题 解决 方案 的 基础 。 如 果 说 两 个 个 体 (人 人、 企业、 产 
品 等 ) 在 某 个 方面 是 相似 的 ， 那 么 它们 在 其 他 方面 往往 也 有 共通 之 处 。 很 多 数据 挖掘 过 程 
通常 基于 相似 性 或 寻找 “合适 ”的 相似 性 来 对 个 体 进行 分 组 。 本 书 前 面 的 章节 间接 地 体现 
了 这 一 点 ， 比 如 分 类 模型 生成 分 类 边界 来 将 目标 变量 值 相同 的 个 体 归 为 同一 组 。 本 章 会 对 
相似 性 进行 直接 的 探讨 ， 同 时 展示 其 在 不 同类 型 任务 上 的 应 用 。 另 外 ， 本 章 加 入 了 一 些 介 
绍 技术 细节 的 小 节 ， 以 便于 数学 功底 较 好 的 读者 更 深入 地 理解 相似 性 。 不 过 ， 读 者 跳 过 这 
些 部 分 也 无 妨 。 
许多 商业 任务 中 都 涉及 基于 相似 个 体 进行 推理 的 过 程 。 


。 有 时 我 们 想 直 接 找 到 相似 的 个 体 。 比 如 ，IBM 想 找 到 与 其 最 佳 商业 客户 相似 的 企业 作 
为 其 销售 部 门 的 目标 客户 。 再 比如 ， 惠 普 公 司 (Hewlett-Packard) 维护 着 许多 面向 客户 
的 高 性 能 服务 器 。 这 种 维护 往往 是 由 一 种 工具 辅助 进行 的 。 而 这 种 工具 可 以 在 已 知 某 服 
务 器 的 配置 的 情况 下 ， 获 取 其 他 配置 相似 的 服务 器 上 的 信息 作为 参考 。 另 外 ， 广 告 商 通 
常 希望 向 与 优质 老 客 户 相似 的 新 客户 提供 线 上 广告 。 

。 相似 性 可 以 用 于 分 类 和 回归 。 鉴 于 我 们 现在 已 经 非常 了 解 分 类 了 ， 所 以 下 文 将 会 用 一 个 
分 类 的 示例 来 展示 相似 性 的 用 法 。 

。 有 时 我 们 还 想 把 相似 的 个 体 归 为 一 徐 〈 即 一 组 ) ， 比 如 我 们 想 知道 客户 群 中 是 否 存在 相 
似 客 户 的 类 群 ， 以 及 这 些 相 似 客 户 的 共同 点 是 什么 。 前 面 章节 探讨 了 有 监督 的 划分 ， 本 
章 讨 论 的 是 基于 相似 性 的 无 监督 的 划分 。 在 讨论 过 相似 性 在 分 类 中 的 用 途 后 ， 本 章 还 会 
讨论 它 在 聚 类 中 的 用 途 。 
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。 HAMEED AA Netflix 这 样 的 现代 零售 商 利 用 相似 性 来 推荐 相似 的 商品 或 基于 相似 的 用 
户 提供 推荐 服务 。 每 当 你 看 到 “喜欢 XX 的 人 也 喜欢 Y” 或 “与 你 浏览 历史 相同 的 用 户 
也 看 了 ……” 这 样 的 商品 推荐 信息 时 ， 相 似 性 都 正在 被 应 用 。 在 第 12 章 中 会 看 到 ， 当 
使 用 相同 的 “品味 维度 ”来 描述 时 ， 一 名 用 户 和 一 部 电影 之 间 就 可 能 存在 相似 性 。 这 时 
侠 我 们 可 以 寻找 与 某 个 用 户 最 相似 的 〈 并 且 访 用户 未 观看 过 的 ) 电影 作为 针对 这 个 用 户 
的 电影 推荐 。 

当然 ， 根 据 相 似 个 体 进行 推理 的 过 程 在 其 他 领域 也 十 分 常用 。 它 天 然 适 用 于 医药 和 法 律 

等 领域 。 医 生 可 以 通过 参考 相似 病例 (不论 是 亲自 诊治 的 还 是 文献 记载 的 ) 和 诊断 结果 

来 对 新 的 环 手 病情 进行 诊断 。 律 师 常 常 援引 判例 来 进行 辩护 ， 而 这 些 判 例 是 已 经 判决 并 

收录 进 和 案卷 的 相似 的 历史 案例 。 在 人 工 智能 领域 ， 辅 助 医生 和 律师 进行 病例 / 案例 推理 

的 系统 的 构建 已 经 有 很 长 一 段 历史 了 ， 而 其 所 依赖 的 关键 因素 就 是 相似 性 判断 。 


为 便于 深入 探讨 这 些 应 用 场景 ， 本 章 首先 要 花 一 点 时 间 来 严格 地 明确 一 下 相似 性 及 一 个 与 
其 非常 相近 的 概念 ， 距 离 。 


6.1 相似 性 和 距离 


只 有 在 对 象 被 表示 为 数据 后 ， 我 们 才能 更 精确 地 讨论 对 象 间 的 相似 性 或 距离 。 例 如 本 书 中 
一 直 在 使 用 的 数据 表示 方式 一 一 把 每 个 对 象 表示 为 特征 向 量 。 在 这 种 方式 下 ， 两 个 对 象 在 
由 特征 定义 的 空间 中 距离 越 近 ， 两 者 就 越 相似 。 


在 构建 和 应 用 预测 模型 时 ， 我 们 的 目标 是 确定 目标 变量 值 。 为 此 ， 我 们 已 经 隐 性 地 运用 了 
对 象 间 的 相似 性 : 3.3 市 中 探讨 了 一 些 分 类 模型 的 几何 意义 ，4.1 节 则 探讨 了 两 种 不 同 的 模 
型 ,它们 均 根 据 具 有 相同 类 别 标签 的 个 体 的 接近 程度 将 实例 空间 划分 成 若干 区 域 。 数 据 科 
学 中 许多 方法 都 能 从 这 个 角度 来 看 : 作为 组 织 数 据 实例 (重要 对 象 的 代表 ) 空间 的 方法 ， 
为 了 服务 于 特定 目的 ， 相 似 的 实例 会 被 相似 地 对 待 。 比 如 ， 分 类 树 和 线性 分 类 器 都 能 通过 
构建 分 区 边界 来 区 分 不 同类 别 ， 两 种 方法 都 认为 同一 个 分 区 中 的 数据 点 应 该 是 相似 的 。 两 
者 的 区 别 仅 在 于 如 何 表示 和 发 现 分 区 。 
所 以 ， 为 什么 不 直接 对 个 体 间 的 相似 性 或 距离 进行 推断 呢 ? 为 此 我 们 需要 掌握 度量 相似 性 
或 距离 的 基本 方法 。 比 如 ， 当 我 们 说 两 个 企业 或 两 位 消费 者 是 相似 的 时 ， 这 究竟 意味 着 什 
么 呢 ? 下 面 来 仔细 探讨 一 下 这 个 问题 。 首 先 ， 考 虑 两 个 简化 的 信贷 申请 场景 中 的 实例 : 
































































































































属 性 用 户 A 用 户 B 
年 龄 23 40 
当前 地 址 的 居住 时 长 (年 ) 2 10 
居住 方式 (1= 自 有 ，2 = 租赁 ， 3 = 其 他 ) 2 1 





因为 这 些 数 据 项 包含 多 个 属性 ， 所 以 我 们 没 法 把 它们 归 一 为 某 种 单一 的 度量 方式 。 度 量 用 
户 A 和 用 户 B 之 间 的 相似 性 或 距离 的 方法 其 实 有 很 多 ， 不 妨 先 从 基本 的 几何 开始 。 

根据 前 文中 讨论 过 的 几何 表示 方法 ， 由 两 个 (数值 ) 特征 描述 的 任何 对 象 都 可 以 视 作 一 个 
二 维 空间 中 的 点 。 图 6-1 中 的 两 个 数据 项 ，4 和 B， 就 是 在 这 样 的 二 维 平面 中 。 其 坐标 分 
别 为 Œa Va) 和 (Xp, ya)。 昌 然 前 文 可 能 提 过 数 次 ,但 在 此 仍 要 再 次 强调 这 些 坐 标 也 就 是 两 


















































个 点 的 特征 值 。 如 图 所 示 ， 我 们 可 以 在 两 点 之 间 画 一 个 直角 三 角形 ， 甚 底 为 两 点 横 坐标 的 
差 cx- xz， 其 高 为 两 点 纵 坐 标的 差 yy 一 yal。 由 勾 股 定理 可 知 ，4 和 B 的 距离 就 是 该 三 角形 
的 斜 边 之 长 ， 也 即 其 他 两 边 的 长 的 平方 和 再 开 方 (x x) +(y4 一 ya) 。 本 质 上 ， 我 们 可 
以 通过 计算 单个 维度 ( 即 本 例 中 的 单个 特征 ) 上 的 距离 来 计算 出 空间 中 存在 的 所 有 距离 ， 
这 便 是 两 点 之 间 的 欧 几 里 得 距离 。 这 种 距离 度量 方法 可 能 是 最 常用 的 儿 何 距离 度量 方法 。 
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距离 (4, B) = 
y Co 一 X + ayey 


A (x4, Y4) 











6-1: 欧 几 里 得 距离 


dee tld id ea 4 和 B 如 果 均 包括 3 个 特征 ， 则 可 以 表示 为 三 维 空间 中 的 
点 ， 两 者 的 坐标 分 别 为 Co yo 24) 和 (xs, ys, Zao DBA, AFB 的 距离 项 还 将 包含 E) 。 
我 们 可 以 加 入 任意 多 个 特征 ， 每 个 特征 对 应 一 个 新 的 维度 。 妆 对 象 由 个 特征 摘 述 ， 即 处 
F n 维 空间 (di, q;,…, d) 时 ,该 维 空间 下 欧 几 里 得 距离 的 通 式 如 公式 6-1 所 示 。 


公式 6-1: 欧 几 里 得 距离 通 式 


Va dp? | (d, 4 dia) Fera (4,4 d, p)? 

















我 们 现在 有 了 任意 两 个 (由 数值 型 特征 向 量 描述 的 ) 对 象 间 的 距离 的 度量 方法 一 一 一 个 基 
于 对 象 的 每 一 个 特征 间距 离 的 简单 公式 。 因 此 前 文中 的 用 户 A 和 用 户 B 之 间 的 欧 几 里 得 距 
离 是 : 














d(A,B) = (23 40)’ + (2-10? + (2-1) 
z18.8 
由 上 式 可 得 ， 两 者 的 距离 约 为 19。 这 是 既 没 有 单位 也 没有 具体 含义 的 数字 ， 只 能 用 于 比较 
实例 个 体 两 两 之 间 的 相似 性 。 事 实证 明 ， 这 种 比较 十 分 有 意义 。 


6.2 最 近邻 推理 


既然 有 了 度量 距离 的 方法 ， 就 可 以 用 它 来 解决 数据 分 析 工 作 中 的 许多 问题 了 。 回 忆 一 下 本 
章 开头 的 示例 ， 我 们 可 以 用 这 个 方法 找到 与 最 佳 的 企业 客户 最 相似 的 企业 ， 或 与 最 佳 零售 
客户 最 相似 的 线 上 消费 者 ， 找 到 后 ， 便 可 以 根据 商业 需要 采取 相应 的 措施 。IBM 用 这 种 方 
法 指导 其 销售 人 员 针 对 企业 客户 进行 营销 。 线 上 广告 商用 这 种 方法 来 精准 投放 广告 。 这 些 
最 相似 的 实例 个 体 被 称 为 最 近邻 。 




















注 1: 以 公元 前 4 世纪 被 称 为 “几何 学 之 父 ” 的 希腊 数学 家 欧 儿 里 得 的 名 字 命 名 。 
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6.2.1 示例 : 威士忌 分 析 


现在 请 看 一 个 新 的 示例 。 本 书 作者 Foster BA REM. MRR, A 
发 现成 百 上 千 种 的 纯 麦 威 士 总 各 不 相同 。 当 Foster 找到 一 种 他 特别 喜欢 的 纯 麦 威士忌 时 ， 
他 就 想 再 找到 其 他 类 似 的 品种 ， 一 是 因为 他 喜欢 探索 纯 麦 威 士 吕 的 “世界 ”;， 二 是 因为 在 
任何 酒 类 专卖 店 和 餐厅 中 ， 这 种 酒 的 选择 都 很 有 限 ， 而 他 想 找 出 一 种 他 非常 喜欢 的 。 比 
如 , 一 天 晚上 , 他 的 饭 友 推荐 他 尝 尝 纯 麦 “Bunnahabhain” 威 士 忌 ,这 种 酒 的 味道 很 特别 ， 
而 且 非 比 寻 和 常 地 好 。 那 么 他 如 何在 所 有 的 纯 麦 威 士 总 中 找到 另 一 款 像 “Bunnahabhain ”一 
样 的 呢 ? 

我 们 将 采取 数据 科学 的 方法 。 第 2 章 提 到 ， 首 先 应 考虑 要 回答 的 问题 是 什么 ,以 及 什么 样 
的 数据 适合 用 来 回答 该 问题 。 如 果 我 们 希望 能 把 口味 近似 的 威士忌 看 作 是 相似 的 ， 那 么 
应 该 用 什么 样 的 特征 向 量 来 描述 纯 麦 苏格兰 威士忌 呢 ? 这 正 是 蒙特 利 尔 大 学 的 Francois- 
Joseph Lapointe 和 Pierre Legendre (1994) 所 研究 的 项 目 。 他 们 对 苏格兰 威 士 总 的 若干 分 
类 问题 和 组 织 问题 非常 感 兴趣 。 此 处 我 们 将 选用 他 们 的 一 部 分 方法 。- 

其 实 ， 许 多 种 威 士 吕 都 有 相关 的 品尝 手记 。 比 如 ，Michael Jackson 就 是 一 位 车 名 的 威 士 
鼠 和 啤酒 的 鉴赏 家 。 他 还 撰写 过 Michael Jackson’s Malt Whisky Companion: A Connoisseur 5 
Guide to the Malt Whiskies of Scotland (Jackson, 1989) ， 其 中 包含 了 对 于 109 种 纯 麦 苏格兰 
威士忌 的 描述 。 这 些 描述 以 品尝 手记 的 格式 记录 ， 如 :“ 开 胃 的 煤 烟 香 ， 儿 乎 类 似 于 和 栗 香 ， 
带 圆润 果 味 的 石楠 花 塞 。 

作为 数据 科学 家 ， 我 们 已 有 所 进展 : 已 经 找到 了 可 能 大 有 用 处 的 数据 源 。 不 过 由 于 仅 赁 这 
些 威士忌 的 品尝 手记 ， 还 无 法 形成 用 来 描述 它们 的 特征 向 量 ， 因 而 我 们 需要 对 数据 形式 做 
进一步 转化 。 受 Lapointe 和 Legendre (1994) 的 启发 ， 我 们 根据 每 种 苏格兰 威士忌 的 品尝 
手记 ， 建 立 了 概括 其 中 信息 的 数值 特征 ， 并 据 此 定义 了 威士忌 的 五 个 通用 属性 ， 每 个 属性 
都 有 众多 可 能 取 值 ， 如 下 所 示 。 


(1) 颜 色 : RÉE, JEKK, RE, Re, 2E, Hee. 28., Hee ”( 共 14 种 取 值 ) 







































































(2) 香味 : 芳香 、 泥 煤 香 、 甜 香 、 清 香 、 清 新 、 兰 香 、 青 草 香 等 ( 共 12 种 取 值 ) 
(3) Ae: Rik Pi ia MA, Zir, pE. E., mer (JE 8 种 取 值 ) 























(4) 滋味 : THB, ie, SAER, RZ, ROR, AER, WER, RSE 〈 共 15 种 取 值 ) 
ORE: Te, M. aA, Pea, Ri HA RR AER, WERE (SE 19 种 取 值 ) 
需要 指出 的 是 ， 这 些 类 别 值 并 非 互 斥 〈 比 如 ，Aberlour 的 滋味 就 可 以 被 描述 为 中 等 、 饱 满 、 
柔软、 圆 调和 柔滑)。 通 常 ， 这 些 值 可 以 同时 出 现 〈 即 使 其 中 的 几 个 值 永远 不 可 能 同时 出 
现 ， 如 又 淡 又 浓重 的 颜色 )， 但 正 因为 它们 可 以 同时 出 现 ， 所 以 Lapointe F Legendre 把 每 
个 变量 的 每 个 值 都 编码 成 了 单独 的 特征 ， 因 此 每 种 威士忌 有 68 个 二 值 型 特征 。 


















































注 2: 他 也 读 不 对 这 个 单词 。 
注 3: 基于 威 士 总 分 析 的 真实 示例 可 见 WhiskyClassified.com, 











由 于 Foster 喜欢 喝 Bunnahabhain 威士忌 ， 因 而 我 们 可 以 借助 Lapointe 和 Legendre 的 表示 
法 ， 用 欧 几 里 得 距离 来 寻找 与 之 相似 的 其 他 威 十 如。 下 文中 的 Bunnahabhain 威士忌 的 描述 
可 供 参 考 。 


颜色 : 金色 

香味 : 清新 、 海 味 

口感 : RE, pE, Pi 

滋味 : 甜 味 、 果 味 、 清 讽 

余味 : 饱满 
下 面 是 对 Bunnahabhain Mt, LAR th 5 种 与 之 最 为 相似 的 纯 麦 办 格 兰 威 士 吕 的 描述 ， 
按 距离 从 小 到 大 排序 。 


威士忌 种 类 E 离 描述 
ik 



























































Bunnahabhain — 金色 ; RE, FPE, es AR. RR, HA TET. k: tuii 

Glenglassaugh 0.643 金色 ; WUE. Bi. Kir: R, FRR, TT. ALOR 

Tullibardine 0.647 金色 ; KE, HE, Rir Mk, RR, Twi, FER, HA Mk, 浓厚、 
芳香 、 甜 味 

Ardbeg 0.667 雪 利 酒 香 ; KE, PE, i, a ME wk, VERR, Wk, R 








Bruichladdich 0.667 RE, RE, Ba. R ER, R, WER, HO, BR tawi 
Glenmorangie 0.667 PR, PE WA. a ME, RACH. FER, R, ERR. AEk, ie 
味 、 清 新 ;饱满 、 悠 长 





我 们 可 以 用 这 个 表格 找 出 与 Bunnahabhain 相似 的 苏格兰 威士忌 。 购 买 威 士 总 时 ， 虽 然 我 们 
可 能 需要 在 店内 库存 中 寻找 表格 中 的 项 ， 但 是 由 于 表格 是 按 相似 性 排序 的 ， 因 而 我 们 可 以 
轻而易举 地 找到 库存 中 与 Bunnahabhain 最 为 相似 的 威士忌 〈 还 能 通过 与 没有 库存 的 其 他 选 
项 比较 ， 大 体 了 解 该 种 威 士 总 与 Bunnahabhain 有 多 相似 ) 。 


如 果 你 对 苏格兰 威 士 总 数据 集 很 感 兴 趣 ， 那 么 不 妨 访问 http://adn.biol.umontreal. 
ca/~numericalecology/data/scotch.html, #£4 Lapointe 和 Legendre 的 数据 以 及 
论文 。 





这 个 例子 直接 应 用 了 相似 性 来 解决 问题 ， 一 旦 理解 了 这 一 基本 概念 ， 它 就 能 作为 一 个 强大 
的 概念 性 工具 来 解决 许多 问题 ， 比 如 上 文 所 展示 的 那些 问题 (寻找 相似 企业 、 相 似 消 费 者 
等 )。 威 十 总 示例 告诉 我 们 ， 为 了 保证 相似 性 与 有 意义 的 特征 挂钩 ， 数 据 科学 家 往往 需要 
进一步 定义 数据 。 本 章 后 文 将 阐述 其 他 有 关 相 似 性 和 距离 的 概念 ， 而 现在 ， 先 讨论 相似 性 
在 数据 科学 中 的 另 一 种 常见 用 法 。 


6.2.2 ”用 最 近邻 来 进行 预测 建 模 
我 们 还 可 以 用 最 近邻 的 概念 来 进行 预测 建 模 。 回 忆 一 下 你 在 前 儿童 中 学 到 的 所 有 有 关 预 测 


建 模 的 知识 。 在 预测 建 模 中 运用 相似 性 的 基本 过 程 非常 简单 : 给 定 一 个 目标 变量 未 知 的 新 
实例 ， 在 浏览 所 有 训练 实例 后 ， 选 择 其 中 与 新 实例 最 为 相似 的 那些 ， 然 后 根据 这 些 实例 的 
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目标 变量 值 (已 知 ) 来 预测 新 个 体 的 目标 变量 值 。 执 行 最 后 一 步 的 方法 仍 需 进一步 明确 ， 
不 过 目前 我 们 先 称 之 为 运用 在 近邻 的 已 知 目标 变量 值 上 的 、 能 帮助 进行 预测 的 合成 函数 
(如 投票 或 取 平 均值 ) 。 

1. 分 类 

由 于 目前 为 止 本 书 花 了 很 大 篇 幅 来 解决 分 类 问题 ， 因 而 本 节 先 讨论 最 近邻 方法 在 极 简单 的 
场景 下 对 新 实例 进行 分 类 的 方法 。 图 6-2 中 标记 为 “? ”的 新 实例 的 标签 需要 预测 ， 根 据 
上 文 介绍 的 基本 过 程 ， 我 们 找到 了 它 的 最 近邻 (本 例 中 有 三 个 ) 及 它们 的 已 知 的 目标 变量 
值 (类 别 值 ) 一 一 两 个 为 正 ， 一 个 为 负 。 那 么 应 该 怎么 构造 组 合 国 数 呢 ? 适合 本 例 的 一 个 
简单 函数 是 多 数 票 决 ， 根 据 这 种 方法 ， 该 实例 的 类 别 应 该 也 为 正 。 

再 萎 虑 一 个 稍微 复杂 些 的 信用 卡 营 销 问题 。 我 们 的 目标 是 ， 基 于 相似 客户 对 信用 卡 优 惠 
活动 的 响应 情况 ， 预 测 新 客户 的 响应 情况 。 其 数据 (当然 ， 也 是 极度 简化 了 的 ) 展示 在 
表 6-1 中 。 

表 6-1: 最 近邻 示例 ,David 会 不 会 响应 ? 

客户 ” ”年龄 收入 (万 ) 信用 卡 数量 是 否 响应 〈 目 标 变量 ) 与 David 的 距离 






























































David 37 5 2 ? 0 

John 35 3.5 3 是 VG5-37) +(35—50) +(3—2) =15.16 
Rachael 22 5 2 T (22-37) +(50-50} +(2-2)} =15 
Ruth 63 20 1 T (63-37) + (200-50)? + (1-2)? =152.23 
Jefferson 59 17 1 否 J69 37) +(170—50) +(1—2)° =122 
Norah 25 4 4 是 Jes 37) +(40 -50% +(4-2)° =15.74 














50 


年 龄 ”40 





5 万 
账户 余额 











6-2: 最 近邻 分 类 。 "? ”是 需要 分 类 的 点 ,其 类 别 应 为 “+”， 因 为 与 之 最 近 的 〈 三 个 ) 近邻 大 多 为 “+” 
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示例 数据 中 的 5 SAP eu Be Bos, mR TEA A E 
有 姓名 、 年 龄 、 收 入 、 已 开通 的 信用 卡 数 和 是 否 对 活动 做 出 了 了 响应。 现在 我 们 想 预 测 新 客 
户 David 是 否 会 对 活动 做 出 响应 。 


K 6-1 的 最 后 一 列 是 用 公式 6-1 计算 出 的 距离 值 ， 表 示 每 个 客户 与 David 的 相似 程度 。 其 
中 3 个 客户 (John, Rachael 和 Norah) 与 David 非常 相似 ， 距 离 约 为 1535， 而 其 他 2 个 客户 
(Ruth 和 Jefferson) 则 距离 更 远 。 因 此 ，David 的 3 个 最 近邻 按 距离 由 近 到 远 排 序 ， 分别 是 
Rachael, John 和 Norah, Ractuel 做 出 了 响应 ，John 和 Norah 则 没有 。 如 果 采 取 多 数 票 决 
方式 ， 那 么 预测 结果 就 为 “是 ”(David 会 做 出 响应 )。 这 引出 了 最 近邻 方法 的 一 些 重要 问 
题 ， 应 该 选择 多 少 个 最 近邻 ?它们 在 组 合 函 数 中 的 权重 相等 吗 ? 我 们 将 在 本 章 后 文中 讨论 


这 些 问 题 。 


























2. 概率 估计 
前 文 提 过 ， 不 仅 预 测 新 个 体 的 分 类 很 重要 ， 预 测 其 定 其 分 数 一 一 也 很 
重要 。 这 是 因为 分 数 所 包含 的 信息 比 单纯 的 “是 / 否 ” 元 结果 更 丰富 。 最 近邻 分 类 可 以 


轻而易举 地 达到 这 个 要 求 。 还 是 刚刚 预测 David 是 否 会 响应 的 分 类 问题 ，David 的 最 近邻 
(Rachael、 Sani 的 目标 变量 值 分 别 为 “ 否 ”“ 是 ”和 “是 ”， 如 果 给 “是 ”赋值 
为 1、 给 “和 否 ”赋值 为 0， 那 么 三 者 的 平均 值 2/3 便 可 以 作为 David 的 目标 变量 预测 值 。 实 
ee ree 
概率 估计 的 探讨 ) 。 

3. 回归 

在 找到 最 近邻 后 ， 就 可 以 将 它们 用 不 同方 式 进行 组 合 来 解决 预测 问题 。 刚 刚 我 们 用 多 数 票 
决 方法 判定 了 目标 变量 的 值 ， 解 决 了 分 类 问题 ， 而 回归 也 能 同样 处 理 。 

假设 我 们 有 和 表 6-1 一 样 的 数据 集 ， 但 这 次 我 们 想 预 测 David 的 收入 。 无 须 重新 计算 距离 ， 
假设 David 的 3 个 最 近邻 仍 是 Rachael, John 和 Norah， 他 们 的 收入 分 别 为 50 000, 35 000 
和 40 000。 这 些 值 取 平均 数 ( 约 为 42 000) 或 中 位 数 (40 000) 后 ， 可 以 用 来 预测 David 
的 收入 。 

















不 得 不 提 的 是 ， 我 们 不 会 用 最 近邻 的 目标 变量 值 来 计算 距离 ， 因 为 这 是 所 要 
预测 的 项 。 故 此 处 的 收入 不 会 像 在 表 6-1 中 一 样 被 用 来 计算 距离 。 但 我 们 可 
以 用 其 他 任何 已 知 值 来 计算 距离 。 

















6.2.3 近邻 的 数量 及 其 影响 

在 解释 分 类 、 回 归 和 评分 的 过 程 时 ， 我 们 仅 用 了 示例 中 的 3 个 最 近邻 。 你 可 能 会 提出 几 个 
问题 。 首 先 ， ee 而 非 1 个 、5 个 或 100 个 ? 其 次 ， 这 些 最 近邻 的 重 

要 性 都 相同 吗 ? 尽管 它们 都 是“ 最” 近邻， 然而 有 的 比 其 他 的 更 近 些 ， 这 对 它们 的 重要 性 
影响 吗 ? 


计算 所 使 用 的 最 近邻 的 数目 没有 单一 标准 ， 但 奇数 更 能 避免 二 元 类 问题 中 多 数 票 决 方式 
的 平局 问题 。 最 近邻 算法 通常 简写 为 大 最 近邻 ， 其 中 磊 指 代 所 选取 的 最 近邻 数 ， 如 3- 最 
近邻 。 
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一 般 情 况 下 ,£ 越 大 ， 得 到 的 平均 估计 值 越 平滑 。 如 果 你 理解 了 目前 为 止 的 所 有 内 容 ， 那 
么 你 应 该 也 可 以 理解 ， 如 果 丰 取 最 大 值 (k= n)， 那 么 每 次 预测 都 会 用 到 整个 数据 库 。 
问题 在 于 ， 这 会 对 整个 数据 集 的 目标 变量 值 取 平 均 数 作为 新 个 体 的 目标 变量 值 。 该 种 方法 
下 , 分 类 问题 中 新 个 体 的 目标 变量 预测 值 会 是 整个 数据 集中 占 多 数 的 类 ， 回 归 问 题 中 新 个 
体 的 目标 变量 值 是 所 有 目标 变量 值 的 平均 值 ， 类 概率 估计 问题 中 新 个 体 的 目标 变量 值 则 是 
“基础 比率 ”概率 值 (参考 5.3.1 节 中 的 基础 比率 注释 )。 


即使 确定 了 最 近邻 的 个 数 ， 但 这 些 最 近邻 与 我 们 想 要 预测 的 个 体 的 相似 程度 不 尽 相 同 ， 这 
是 否 会 对 它们 的 重要 程度 造成 影响 ? 

我 们 起 初 简单 地 用 多 数 票 决 方法 处 理 分 类 问题 。 为 防止 出 现 平局 情况 ， 最 近邻 的 个 数 取 奇 
数 。 但 该 方法 忽略 了 很 重要 的 一 点 : 每 个 最 近邻 与 该 个 体 的 距离 有 多 远 。 比 如 ， 假 如 我 们 
选取 了 David 的 4 个 最 近邻 ， 甚 响应 情况 分 别 为 “是 ”“ 否 ” 是 ”“ 否 "， 造 成 了 平局 。 但 
前 三 个 距离 David 非常 近 (距离 约 为 15)， 而 相 比 之 下 ， 第 四 个 非常 远 (距离 约 为 122)， 
直观 地 看 ， 第 四 个 客户 在 票 决 中 所 占 比 重 不 应 与 前 三 个 一 样 大 。 考 虑 到 这 个 问题 ， 最 近 人 
方法 往往 采取 加 权 表 决 或 相似 性 适度 投票 ， 从 而 让 每 个 近邻 的 贡献 度 与 相似 程度 挂钩。 

请 再 次 思考 表 6-1 中 的 数据 ， 并 判断 David 是 否 会 对 信用 卡 优惠 活动 做 出 响应 。 前 面 已 经 
证 明 ， 如 果 用 多 数 票 决 方式 来 预测 David 的 类 别 ， 则 需 特 别 注 意 最 近邻 的 个 数 。 因 此 我 们 
这 次 把 所 有 最 近邻 按 与 David 的 相似 程度 加 权 后 重新 计算 ， 其 中 权重 为 距离 平方 的 倒数 。 
下 面 是 按 距离 对 最 近邻 进行 排序 的 表格 。 





































































































姓 名 E 5 相似 性 权重 贡献 度 类 
Rachael 15.0 0.004 444 0.344 否 
John 15.2 0.004 348 0.336 是 
Norah 15.7 0.004 032 0.312 是 
Jefferson 122.0 0.000 067 0.005 否 
Ruth 152.2 0.000 043 0.003 否 





“贡献 度 ” 一 栏 指 的 是 每 个 最 近邻 对 David 最 终 的 目标 变量 概率 预测 的 贡献 量 (与 权重 成 
比例 ， 和 为 1) 。 从 中 可 以 看 出 ， 贡 献 度 在 很 大 程度 上 受 距离 影响 : Rachael、John 和 Norah 
与 David 最 为 相似 ， 因 而 是 David 响应 情况 的 预测 值 的 主力 ， 而 Jefferson 和 Ruth 相对 远 
些 ， 几 乎 没有 对 David 的 预测 做 出 贡献 。 把 两 类 的 贡献 值 分 别 相 加 ， 最 终 David 的 概率 预 
测 是 0.65 的 “是 ”和 0.35 AY “A”, 


这 个 概念 也 可 以 推广 到 其 他 类 型 的 预测 方法 上 ， 如 回归 和 类 概率 估计 。 通 常 ， 我 们 可 以 
把 该 过 程 视 作 加 权 评 分 。 加 权 评 分 有 一 个 好 处 ， 就 是 削弱 了 决定 最 近邻 个 数 的 重要 性 。 
因为 每 个 最 近邻 的 贡献 度 与 距离 挂钩 ， 所 以 越 远 的 近邻 自然 影响 越 小 ， 故 而 在 使 用 加 权 评 
分 法 时 , 磊 的 取 值 不 像 在 多 数 票 决 法 或 未 加 权 平均 法 中 那样 关键 。 许 多 方法 就 是 通过 选择 
一 个 很 大 的 (比如 =n， 即 选择 所 有 数据 点 )， 且 用 距离 调整 其 影响 来 避免 过 多 考虑 上 的 
取 值 。 
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最 近邻 推理 的 多 种 名 称 
像 数据 挖 握 领 域 的 很 多 名 词 一 样 ， 最 近邻 分 类 器 也 有 许多 不 同 叫 法 ， 部 分 原因 是 许多 
独立 的 领域 都 产生 了 相近 的 概念 。 最 近邻 分 类 器 在 很 久 以 前 诞生 于 统计 和 模式 识别 
(Cover & Hart, 1967) 领域 ， 通 过 参考 数据 库 (或 称 “ 记 忆 ”) 中 的 数据 对 新 个 体 直接 进 
行 分 类 的 概念 当时 被 称 作 基于 实例 的 学 习 (Aha, Kibler & Albert, 1991) 或 基于 记忆 的 学 
J (Lin & Vitter, 1994) 。 由 于 最 近邻 分 类 器 在 “训练 ”阶段 不 产生 模型 ， 而 是 直到 获取 
所 需 个 体 后 才 进 行 主 要 的 工作 ， 因 而 这 种 总 体 思路 也 叫 惰性 学 习 (Aha, 1997). 


人 工 智 能 领域 中 的 一 项 相关 技术 是 案例 推理 (Kolodner, 1993; Aamodt & Plaza, 1994) , 
简称 CBR。 因 为 医生 和 律师 往往 会 根据 过 往 案 例 来 推断 新 案例 ， 所 以 该 技术 在 这 些 领 
域 已 经 具有 相当 长 的 历史 了 。 


然而 ， 案 例 推理 和 最 近邻 方法 之 间 仍 存在 显著 差异 。CBR 中 的 案例 通常 不 是 简单 的 特 
征 变量 的 形式 ,而 是 对 该 案例 非常 详尽 的 综述 ， 包 含 诸如 症状 、 病 史 、 诊 断 、 治 疗 和 
结果 等 内 容 ; 或 是 法 律 案例 的 细节 ， 如 原告 论据 和 被 告 论据 、 引 用 的 先例 和 最 终 判决 
结果 等 。 这 些 案 例 纤 悉 必 具 ， 因 此 在 CBR 中 ， 它 们 不 仅 能 用 来 预测 类 标签 ， 还 能 提供 
诊断 和 规划 信息 以 便 后 用 。 在 新 情景 下 应 用 过 往 案例 这 一 过 程 往往 十 分 复杂 ， 需 要 付 
出 巨大 努力 。 








6.2.4 几何 解释 、 过 拟 合 和 复杂 度 控制 

像 我 们 学 过 的 其 他 模型 一 样 ， 对 最 近邻 方法 创建 的 分 类 区 域 进 行 可 视 化 是 很 有 意义 的 。 虽 然 
没有 明确 的 边界 ， 但 是 由 实例 间 的 相 邻 关系 构造 的 隐 性 区 域 确实 存在 。 通 过 系统 地 探索 实例 
空间 中 的 数据 点 、 判 定 其 分 类 以 及 在 分 类 变化 的 位 置 设 定 边 界 ， 我 们 便 可 以 计算 出 这 些 区 域 。 
图 6-3 描绘 了 一 个 由 1- 最 近邻 分 类 器 构造 的 、 由 “无 不 良 贷款 ”个 体 组 成 的 区 域 。 试 将 此 
图 与 图 3-15 中 的 分 类 树 区 域 以 及 图 4-3 中 线性 边界 包围 的 区 域 作 比较 。 

































































图 6-3: 由 -最近 邻 分 类 器 构造 的 边界 
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注意 ， 这 里 的 边界 不 是 线条 ， 也 不 是 简单 的 几何 图 形 。 它 们 是 不 同业 别 的 训练 数据 之 间 的 
不 规则 边界 。 最 近邻 分 类 器 治 着 训练 集 实例 周边 构造 了 具体 边界 。 注 意 ， 一 个 在 正 个 体 群 
中 间 的 负 个 体 产生 了 一 个 “ 负 蝇 ”， 该 点 可 以 被 当 作 噪 声 或 离 群 点 。 而 使 用 其 他 建 模 方法 
的 话 ， 该 点 可 能 会 被 消除 。 

这 种 对 异常 值 的 敏感 性 源 于 我 们 使 用 了 1- 最 近邻 分 类 器 。 由 于 其 只 选择 单个 近邻 ， 因 而 所 
产生 的 边界 要 比 由 多 个 近邻 取 平均 产生 的 边界 更 不 规则 一 些 。 我 们 稍 后 会 继续 这 个 话题 。 
一 般 来 说 ， 不 规则 概念 边界 是 所 有 最 近邻 分 类 器 的 特征 ， 因 为 它 不 受 任何 特定 的 几何 形式 
限制 ， 而 是 完全 根据 训练 数据 来 构造 边界 。 

由 此 我 们 可 以 想到 第 5 章 中 有 关 过 拟 合 和 复杂 度 控制 的 讨论 ， 如 果 你 猜想 1- 最 近邻 分 类 器 
具有 十 分 严重 的 过 拟 合 问题 ， 那 你 就 对 了 。 可 以 设想 一 下 基于 训练 集 评估 1- 最 近邻 分 类 器 
的 结果 一 一 在 对 每 个 训练 数据 点 分 类 时 ， 使 用 任何 合理 的 距离 度量 方法 都 会 导致 该 点 成 为 
自己 的 最 近邻 ! 那么 该 点 的 目标 变量 值 就 会 用 来 预测 自身 的 目标 变量 值 ， 然 后 ， 你 瞧 ， 完 
美的 分 类 就 出 现 了 。 回 归 方法 也 会 有 同样 的 问题 。1- 最 近邻 分 类 器 会 记 住 训练 数据 ， 但 
效果 会 比 第 5 章 开头 那个 站 不 住 脚 的 的 查询 表 稍 好 一 点 ， 因 为 查询 表 不 含 任何 相似 性 的 概 
念 ， 所 以 它 只 会 完美 预测 某 个 特定 的 训练 个 体 ， 而 对 其 他 个 体 则 给 予 一 样 的 默认 预测 。1- 
最 近邻 分 类 器 同样 能 完美 地 预测 训练 个 体 ， 但 经 常 也 可 以 对 其 他 个 体 做 出 合理 预测 : 因为 
它 用 的 是 与 之 最 相似 的 训练 个 体 。 


因此 ， 从 过 拟 合 及 避免 过 拟 合 的 角度 来 看 ， 太 最 近邻 分 类 器 中 的 是 一 个 复杂 度 参数 。 在 
= 的 极端 情况 下 ， 模 型 的 复杂 度 大 大 受 限 。 根 据 前 文 描述 ，n- 最 近邻 模型 (忽略 相似 性 
权重 ) 仅 能 根据 数据 集中 的 目标 变量 平均 值 对 每 个 数据 点 进行 预测 。 在 另 一 个 极端 , B k= 
1 的 情况 下 ， 我 们 会 得 到 一 个 非常 复杂 的 模型 ， 而 其 构造 的 边界 也 非常 复杂 ， 这 样 会 使 每 
个 训练 个 体 处 在 一 个 由 它 自身 的 类 别 标注 的 区 域 里 。 
现在 回 到 先前 的 一 个 问题 : 如 何 确定 大 的 取 值 ? 我 们 可 以 用 5.9.2 市 中 的 程序 来 设置 其 他 
复杂 度 参数 : 先 在 训练 集 上 做 交叉 验证 或 其 他 藤 套 保留 测试 ， 从 而 在 大 量 不 同 的 上 的 取 值 
中 选 出 使 模型 效果 最 佳 的 值 ， 再 用 整个 训练 集 来 构建 最 近邻 模型 。 第 5 章 中 详细 讲述 
过 ， 因 为 该 程序 只 用 了 训练 数据 ， 所 以 我 们 便 可 以 用 测试 数据 来 对 其 进行 评估 ， 从 而 得 到 
对 其 泛 化 能 力 的 无 偏 估计 。 数 据 挖掘 工具 通常 具有 这 种 用 和 嵌 套 交叉 验证 来 自动 确定 下 值 的 
功能 。 

图 6-4 和 图 6-5 展示 了 最 近邻 分 类 器 创建 的 不 同 边界 。 一 个 三 元 分 类 问题 使 用 不 同 的 最 近 
邻 数 进 行 了 分 类 : 图 6-4 中 的 最 近邻 数 为 1， 于 是 图 中 的 边界 非常 不 规则 ， 且 具体 到 了 训 
练 集中 的 每 个 数据 点 ， 而 图 6-5 中 的 最 近邻 数 为 30， 它 们 取 平 均 数 后 得 到 了 最 终 的 分 类 结 
果 ， 因 此 图 中 的 边界 与 图 6-4 中 的 边界 截然 不 同 且 更 为 平滑 。 需 要 注意 的 是 ， 这 两 个 案例 
尼 不 同 于 线性 模型 或 树 形 结构 模型 ， 它 们 既 不 产生 平滑 的 曲线 形 边 界 ， 也 不 产生 规则 的 几 
何 形 分 区 。 大 最 近邻 模型 的 边界 与 数据 的 关联 性 更 高 。 
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B 6-4: 针对 三 元 分 类 问题 ， 用 1- 最 近邻 分 类 器 (1 个 最 近邻 ) 构建 的 分 类 边界 





最 近邻 分 类 (k= 30) 
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图 6-5: 针对 三 元 分 类 问题 ,用 30- 最 近邻 分 类 器 (对 30 个 最 近邻 取 平均 ) 构建 的 分 类 边界 
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6.2.5 “最 近邻 方法 的 问题 
在 结束 对 作为 预测 模型 的 最 近邻 方法 的 讨论 之 前 ， 我 们 需要 提出 有 关 该 模型 的 使 用 方法 的 
儿 个 问题 。 这 些 问 题 在 现实 应 用 中 经 党 出 现 。 


1. 易 理 解 性 

最 近邻 分 离 器 的 易 理解 性 是 个 很 复杂 的 问题 。 前 文 提 过 ， 诸 如 医药 和 法 律 之 类 的 领域 通常 
会 通过 相似 的 过 往 案例 来 推断 新 案例 ， 在 这 些 领 域 里 ， 最 近邻 方法 是 个 不 错 的 选择 。 但 在 
其 他 领域 ， 这 种 不 够 明确 且 不 太 容 易 解释 的 模型 可 能 会 造成 问题 。 


易 理解 性 的 问题 实际 上 又 分 为 两 个 方面 : 做 出 特定 判断 的 理由 和 整个 模型 的 易 理解 性 。 


在 使 用 最 近邻 方法 时 ， 我 们 可 以 轻松 地 描述 出 单个 数据 点 的 目标 变量 是 如 何 被 决定 的 : 
我 们 可 以 展示 出 决策 所 用 到 的 最 近邻 集合 ， 以 及 每 一 个 最 近邻 的 贡献 度 ， 如 前 文 表 6-1 中 
预测 David 是 否 响应 的 示例 。 使 用 最 近邻 方法 时 ， 相 应 的 谨慎 解释 和 明确 描述 非常 有 用 ， 
如 Netflix 使 用 最 近邻 分 类 来 进行 推荐 ， 并 使 用 类 似 下 面 的 语句 来 解释 为 何 推荐 这 些 电影 : 


“根据 您 喜欢 的 《莫扎特 传 》《 不 朽 的 园丁 》 和 《阳光 小 美女 》 我 们 为 您 推荐 
(HERAKI Jo” 


EEA EOE: RRR R le PR Po Se ER EEA 
商品 相关 o 

这 样 的 推荐 理由 是 否 充分 要 依 应 用 场景 而 定 。 一 个 亚马逊 用 户 可 能 会 对 这 样 的 推荐 理由 感 
到 非常 满意 。 但 在 另 一 种 情形 下 ， 一 位 抵押 贷款 申请 人 则 可 能 对 诸如 “因为 你 与 曾经 贷款 
违约 的 Smith 一 家 和 Mitchell 一 家 非常 相似 ， 所 以 我 们 拒绝 你 的 申请 ”的 解释 感到 不 满 。 
这 种 模型 可 以 基于 特定 的 重要 变量 而 给 出 极 简单 的 解释 。 实 际 上 ， 这 种 模型 如 果 被 用 于 信 
用 评分 模型 的 话 ， 会 受到 某 些 法 规 的 限制 。 比 如 ， 某 个 线性 模型 可 以 被 这 样 解释 :“ 其 他 
条 件 不 变 的 情况 下 ， 如 果 你 的 收入 高 于 20 000 美元 ， 那 么 你 就 能 得 到 这 笔 贷 款 。 


同样 ， 整 个 最 近邻 模型 判定 新 个 体 的 方法 也 非常 容易 解释 ， 这 种 通过 寻找 最 相似 的 实例 并 
以 它们 的 分 类 或 值 来 进行 预测 的 思路 ， 对 许多 人 来 说 都 非常 直观 。 

难点 在 于 ， 如 何 更 深入 地 解释 从 数据 中 挖掘 出 的 “知识 ”。 如 果 企 业 利益 相关 者 提出 “你 
的 系统 从 数据 中 获得 了 有 关 我 用 户 的 什么 信息 ?做 出 判断 的 依据 是 什么 ? ”这样 的 问题 ， 
那 你 可 能 无 法 轻松 地 给 出 答案 ， 因 为 该 模型 不 是 显 式 的 。 严 格 来 讲 ， 最 近邻 “模型 ” 包 
含 了 整个 案例 集 (数据 库 )、 距 离 函 数 和 组 合 函 数 。 在 二 维 空 间 中 ， 我 们 可 以 直接 对 该 模 
型 进行 可 视 化 (如 前 一 幅 图 所 示 ) ;但 维度 更 高 时 ， 这 种 可 视 化 就 无 法 进行 。 因 为 该 模 
型 中 的 知识 通常 不 易 理解 ， 所 以 当 模 型 的 易 理 解 性 和 依据 非常 重要 时 ， 不 建议 使 用 最 近 
邻 方法 。 

2. 维度 和 领域 知识 

最 近邻 方法 通常 会 用 所 有 的 特征 来 计算 实例 之 间 的 距离 。6.3.1 市 探讨 了 有 关 属 性 的 一 个 难 
题 : 数值 属性 的 值 域 可 能 存在 巨大 差异 ， 因 而 如 果 疫 有 经 过 合理 的 标准 化 ， 那 么 值 域 较 大 
的 变量 可 能 会 覆盖 值 域 较 小 的 变量 的 效果 。 除 此 之 外 ， 当 属性 过 多 ， 或 与 判断 相似 性 不 相 
关 的 属性 过 多 时 ， 也 会 存在 严重 的 问题 。 



















































































































































































































































































比如 ， 在 信用 卡 优惠 活动 问题 中 ， 用 户 数据 库 中 可 能 包含 许多 附带 信息 ， 如 子女 数 、 工 作 
时 长 、 房 屋 大 小 、 收 入 中 位 数 、 汽 车 的 品牌 及 型 号 、 平 均 教育 水 平等 ， 这 些 变量 有 的 或 许 
与 用 户 是 否 会 接受 优惠 活动 相关 ， 但 大 多 数 无 关 。 这 样 的 问题 被 称 为 高 维 问题 ， 即 它们 会 
受到 所 谓 维度 灾难 的 影响 ， 而 这 也 给 最 近邻 方法 带 来 了 很 多 问题 。 其 原因 和 影响 具有 一 定 
技术 性 “， 但 粗略 地 说 ， 因 为 所 有 属性 (HERE) 都 被 用 来 计算 距离 ， 所 以 实例 的 相似 性 会 大 
大 地 被 过 多 的 无 关 变量 所 误导 或 扰乱 。 

解决 无 关 属 性 过 多 的 问题 的 方法 有 很 多 ， 其 中 一 个 是 特征 选择 ， 即 审慎 地 选择 应 进入 数据 
挖掘 模型 的 特征 。 数 据 挖掘 人 员 可 以 借助 背景 知识 ， 手 动 选 择 有 关系 的 属性 。 这 是 数据 挖 
据 团 队 在 数据 挖掘 流程 中 注入 大 量 领域 知识 的 主要 方式 之 一 。 第 3 章 和 第 5 章 探讨 过 ， 一 
些 自动 的 特征 选择 方法 也 能 处 理 数据 ， 并 判断 哪些 属性 给 出 了 有 关 目 标 变 量 的 信息 。 

另 一 种 在 相似 性 计算 中 注入 领域 知识 的 方法 是 手动 调整 相似 性 /距离 函数 。 比 如 ， 数 据 科 
学 家 可 能 预先 知道 “信用 卡 数量 ”对 用 户 是 否 会 再 办 一 张 新 卡 有 很 大 的 影响 ， 那 么 他 就 
可 以 通过 赋 给 不 同 的 特征 不 同 的 权重 〈 比 如 ， 赋 给 信用 卡 数量 更 大 的 权重 ) 来 调整 距离 函 
数 。 加 入 领域 知识 不 仅 是 因为 我 们 知道 如 何 提升 预测 效果 ， 更 是 因为 我 们 了 解 正在 寻找 的 
相似 个 体 。 在 寻找 相似 的 威士忌 时 ， 我 可 能 事先 知道 “ 泥 煤 味 ”对 我 找 口味 相似 的 纯 麦 威 
土 忌 非常 重要 ， 那 么 我 就 可 以 在 计算 相似 性 时 给 其 以 更 高 的 权重 ， 而 如 果 另 一 个 口味 变量 
不 太 重要 ， 那 么 我 就 可 以 删 掉 它 ， 或 是 给 它 一 个 较 低 的 权重 。 

3. 计算 效率 

最 近邻 方法 的 优势 之 一 是 训练 速度 快 ， 因 为 其 仅 需 要 对 个 体 进行 存储 ， 而 无 须 构 建 模型 。 
其 主要 的 计算 成 本 在 于 计算 和 分 类 ， 因 为 我 们 必须 通过 查询 数据 库 来 找寻 新 个 体 的 最 近 
邻 。 这 个 过 程 可 能 代价 不 菲 ， 且 分 类 阶段 的 成 本 也 需要 多 加 考虑 。 有 的 应 用 场景 要 求 极 快 
的 预测 速度 ， 比 如 ， 线 上 广告 精准 投放 就 要 求 在 儿 十 诸 秒 内 做 出 决策 。 在 这 种 情况 下 ， 最 
近邻 方法 就 不 够 实用 了 。 


提取 最 近邻 的 速度 可 以 用 一 些 技术 来 提高 。 一 些 商 业 数据 库 和 数据 挖掘 系统 
会 用 kd 树 和 散 列 方法 (Shakhnarovich, Darrell & Indyk, 2005; Papadopoulos & 
Manolopoulos, 2005) 等 专门 的 数据 结构 提升 最 近邻 查询 的 效率 。 但 请 注意 ， 
许多 小 型 研究 型 数据 挖掘 工具 通常 不 会 使 用 这 样 的 技术 ， 而 是 仍 依靠 简单 的 
暴力 检索 方法 。 


6.3 与 相似 性 和 最 近邻 相关 的 一 些 重 要 技术 细节 


6.3.1 混合 属性 

到 目前 为 止 ， 我 们 一 直 在 使 用 欧 几 里 得 距离 ， 并 证 明了 其 计算 的 简便 性 。 如 果 变 量 是 数值 
型 的 且 可 以 直接 比较 ， 那 么 距离 的 计算 就 很 简单 。 而 当 数 据点 包含 复杂 且 混 合 的 变量 时 ， 
问题 也 会 变 得 复杂 。 思 考 一 下 同一 问题 的 另 一 个 示例 ， 这 其 中 包含 更 多 的 属性 ; 












































































































































注 4: 比如 ， 出 于 技术 性 原因 ， 在 特征 很 多 的 时 候 ， 一 些 特征 实例 会 极其 频繁 地 出 现在 其 他 实例 的 个 最 近 
邻 中 ， 因 此 这 些 个 体会 对 分 类 造成 巨大 影响 。 
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性 客户 A 客户 B 





























性 别 男 女 
年 龄 23 40 
当前 地 址 的 居住 时 长 (E) 2 10 
居住 方式 (1= 自 有 ，2 = 租赁 ，3= 其 他 ) 2 1 
收入 (美元 ) 50 000 90 000 


现在 我 们 面临 一 些 问题 : 首先， 欧 儿 里 得 距离 公式 的 项 均 为 数值 型 ， 但“ 性别” 是 类 别 型 
(或 符号 别 型 ) 变量 ， 因 此 必须 用 数字 对 其 进行 编码 。 像 这 样 的 二 元 变量 往往 用 0-1 编码 ， 
但 这 对 多 元 类 别 型 变量 来 说 并 非 最 佳 的 编码 方式 。 

另 一 个 重要 问题 是 ， 有 些 变量 虽然 是 数值 型 ， 但 其 取 值 范围 大 不 相同 。 年 龄 的 范围 是 18 
到 100 岁 ， 而 收入 的 范围 则 可 能 是 10 到 1000 万 美元 。 在 标准 化 前 ，10 美元 的 收入 差 可 
能 和 10 岁 的 年 龄 差 在 距离 尺度 中 同等 重要 ， 这 显然 是 错误 的 。 因 此 ， 基 于 最 近邻 方法 的 
系统 通常 首先 要 经 过 变量 的 标准 化 : 通过 测量 变量 的 范围 来 对 值 进行 相应 的 标准 化 ， 或 把 
值 分 配 到 固定 数目 的 分 箱 中 。 这 里 的 一 般 原 则 是 ， 在 计算 相似 性 或 距离 时 ， 必 须要 谨慎 处 
里， 要 注意 计算 方式 对 所 应 用 的 问题 的 真正 意义 。 


6.3.2 “其 他 距离 函数 

前 方 有 技术 细节 ! 

简单 起 见 ， 到 目前 为 止 我 们 只 用 了 一 种 度量 方法 一 一 欧 儿 里 得 距离 。 下 文 将 
介绍 距离 函数 的 更 多 细节 ， 以 及 其 他 度量 方法 。 

值得 注意 的 是 ， 这 里 提 到 的 相似 性 测度 只 是 冰山 一 角 。 虽 然 它们 尤为 常用 ， 
但 数据 科学 家 和 商业 分 析 师 必须 谨 记 ， 应 该 根据 实际 商业 问题 来 选择 有 意义 
的 相似 性 测度 。 跳 过 本 节 不 会 影响 后 面 的 阅读 。 






























































前 文 提 过 ， 欧 几 里 得 距离 (Euclidean distance) 可 能 是 数据 科学 领域 应 用 最 广 的 距离 度量 
方法 。 它 通用 、 直 观 并 且 计 算 起 来 很 快 。 由 于 它 在 每 个 维度 使 用 距离 的 平方 ， 因 而 有 时 也 
叫 “L2 范 数 "， 记 作 “|: | 上。 公式 6-2 展示 了 它 的 标准 公式 。 

公式 6-2: 欧 几 里 得 距离 (L2 范 数 ) 

















dguctidean (X,Y ) =|X- Y| = f(x,y)" (x,— Yn) + 


在 欧 几 里 得 距离 得 到 广泛 应 用 的 同时 ， 仍 有 许多 其 他 的 距离 度量 方法 不 容 忽 视 。 由 Deza 
& Deza 编纂 的 Dictionary of Distances (Elsevier Science, 2006) 中 列举 了 几 百 种 距离 度量 方 
法 ， 其 中 有 十 几 种 在 数据 挖掘 中 非常 常用 。 之 所 以 有 这 么 多 种 ， 是 因为 距离 国 数 在 最 近 多 
方法 中 举足轻重 。 它 基本 上 可 以 把 两 个 (可 能 非常 复杂 的 ) 示例 之 间 的 比较 简化 为 一 个 数 
字 。 应 用 中 的 数据 类 型 和 领域 特征 会 在 很 大 程度 上 影响 单个 属性 组 合 方式 之 间 的 差异 。 
曼哈顿 距离 (Manhattan distance) (FR L1 范 数 ) 是 两 个 数据 点 不 同 维度 上 的 距离 (E 
平方 项 ) 的 和 ， 如 公式 6-3 所 示 。 





公式 6-3: 曼哈顿 距离 ( 工 1 范 数 ) 
darnattan (Xs 了 ) = |x- Y| =|x -y|+% —y |+ 


ADH X FY Cee THEE LZ I. EZ RA IE 〈 或 出 租车 距 
离 )， 是 因为 它 表 示 了 一 个 人 在 类 似 曼哈顿 区 中 心 〈 网 格 状 形式 ) 这 样 的 地 方 的 两 点 之 间 
移动 时 ， 他 所 走 过 的 所 有 街道 的 总 距离 ， 即 总 的 横向 距离 加 上 总 的 纵向 距离 。 


上 文中 威士忌 问题 的 研究 者 用 的 是 另 一 种 常用 的 距离 度量 方法 -一 一 杰 卡 德 距离 (Jaccard 
distance)。 它 能 把 两 个 对 象 作 为 特征 集合 进行 处 理 。 在 这 种 思维 方式 下 ， 我 们 需要 考虑 两 
个 对 象 人 和 了 的 所 有 特征 的 并 集 | 和 vuY| 和 交集 | 和 了 I， 它们 的 杰 卡 德 距离 是 两 者 共有 的 
特征 数 与 两 者 全 部 的 特征 (两 者 中 任意 一 个 所 拥有 的 特征 ) 数 之 比 。 当 两 者 共有 的 特征 更 
重要 ， 而 两 者 同时 缺少 的 特征 不 重要 的 时 候 ， 杰 卡 德 距离 比较 适用 。 比 如 ， 对 寻找 相似 的 
威士忌 来 说 ， 两 种 威士忌 都 有 泥 煤 味 很 重要 ， 但 两 者 都 没有 成 味 则 不 重要 。 杰 卡 德 距离 的 
集合 表示 法 如 公式 6-4 所 示 。 


公式 6-4: 杰 卡 德 距离 





























|XaY| 
|XUY| 


余弦 距离 〈cosine distance) 则 常 在 文本 分 类 中 用 于 度量 两 篇 文档 的 相似 性 ， 其 定义 见 公式 6-5, 
公式 6-5: 余弦 距离 


Gaceard (X, Y) = 1 = 











X-Y 


(X,Y) =1- 
xi]; 








FE || + h 仍 代表 每 个 特征 向 量 的 L2 范 数 ， 或 称 欧 儿 里 得 长 度 (对 向 量 而 言 ， 这 仅 为 其 到 
原点 的 距离 )。 








信息 检索 的 文献 中 更 常 使 用 余弦 相似 性 这 一 说 法 ， 即 公式 6-5 的 分 数 部 分 ， 
也 即 1- 余弦 距离 。 





在 文本 分 类 中 ， 每 个 词 和 记号 都 对 应 一 个 维度 ， 文 章 在 每 个 维度 上 的 位 置 则 指 的 是 文章 中 
pap eat 比如 ， 假 设 表演 一 词 在 文章 A 中 出 现 了 7 次， 在 文章 B 中 出 现 了 2 

次 ; 过 渡 一 词 在 A 中 出 现 了 3 次 ,在 B 中 出 现 了 3 次; 金融 一 词 在 A 中 出 现 了 2 次， 在 
B B IRERE. 如 果 把 两 篇 文章 表示 成 这 三 个 词 出 现 次 数 的 向 量 形式 ， 即 4 = <7,3,2>, 
B= <2,3,0>。 那 么 两 篇 文章 的 余弦 距离 就 是 : 























注 5: Lapointe 和 Legendre (1994)， 第 3 节 “Classification of Pure Malt Scotch Whiskies” 更 详细 地 讨论 了 
他 们 界定 问题 的 过 程 ,读者 可 在 线 上 (http:/www.dcs.ed.ac.uk/home/jhb/whisky/lapointe/text.html) 阅读 。 
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<7,3,2> -<2,3,0> 
|<7,3.2>[, -|52.3.0>], 
=4 7-24+3-34+2-0 
V¥494+94+4-J44+9 


-1-2 -019 
28.4 


Chasing (A, B) 一 1 








余弦 距离 尤其 适用 于 需要 名 略 实例 间 尺 度 差 异 的 情况 一 一 技术 上 说 ， 也 就 是 需要 忽略 向 量 的 幅 
度 的 情况 。 举 一 个 具体 的 例子 ， 在 进行 文本 分 类 时 ， 你 只 想 比 较 两 篇 文章 的 内 容 ， 而 忽略 文章 
长 度 不 同 的 问题 。 在 上 文 的 例子 中 ,假设 还 有 第 三 篇 文章 C， 其 中 “表演 ”一 词 出 现 了 70 次 ， 
“过 渡 ” 一 词 出 现 了 30 次,“ 金融 ”一 词 出 现 了 20 次， 那么 C 对 应 的 向 量 就 是 C = <70,30,20>。 
只 要 稍 加 计算 ， 你 就 会 发 现 , 4 和 C 的 余弦 距离 是 0， 因 为 C 恰恰 是 4 的 10 倍 。 

这 是 阐述 距离 度量 方法 多 样 性 的 最 后 一 个 例子 。 请 试 着 用 另 一 种 方式 考虑 文本 。 有 时 候 我 
们 会 需要 度量 两 个 字符 串 之 间 的 距离 ， 比 如 在 某 些 商业 应 用 场景 中 判断 两 条 数据 记录 是 否 
对 应 同一 个 人 ， 当 然 ， 其 中 可 能 包括 拼写 错误 。 我 们 最 终 想 知道 两 者 的 相似 程度 。 假 设 有 
两 个 字符 串 : 

(1)1113 BLeaker St. 


























(2) 113 Bleecker St. 

我 们 想 知 道 两 者 的 相似 程度 ， 因 此 需要 用 另 一 种 距离 国 数 一 一 编辑 距离 或 莱 文 斯 坦 距离 。 
这 种 度量 方法 通过 计算 将 一 个 字符 串 转 化 为 另 一 个 字符 串 需 要 进行 的 编辑 〈 揪 入 、 删 除 、 
替换 字符 中 的 任意 一 种 ) 次 数 的 最 小 值 来 度量 个 体 间 的 距离 。 在 本 例 中 ， 第 一 个 字符 串 可 
以 通过 以 下 步骤 转化 为 第 二 个 字符 串 : 
(1) 删除 一 个 “1”， 

(2) 插 入 一 个 “c”，; 

(3) 把 一 个 “a” 换 成 “e”。 

这 样 这 两 个 字符 串 的 编辑 距离 就 为 3。 在 其 他 领域 中 也 可 以 做 相似 的 编辑 距离 计算 ， 如 姓 
名 (从 而 可 以 处 理 中 间 名 缩写 缺失 的 情况 )， 其 至 还 可 以 计算 组 合 了 多 种 编辑 距离 相似 性 
的 更 高 级 别 的 相似 性 。 


















































编辑 距离 也 常用 于 生物 领域 ， 以 计算 等 位 基因 串 的 遗传 距离 。 一 般 来 说 ， 如 
果 数 据 项 包含 需要 在 意 顺 序 的 字符 串 或 序列 ， 那 么 我 们 通常 会 使 用 编辑 距离 。 





6.3.3 * 组 合 函 数 : 计算 近邻 的 评分 
IN 前 方 有 技术 细节 ! 


为 了 完整 ， 我 们 需要 简要 探讨 一 下 “组 合 国 数 "， 即 可 以 通过 个 体 的 一 系列 
最 近邻 计算 该 个 体 预测 值 的 公式 。 








先 从 简单 的 多 数 票 决 讲 起 。 该 决策 法 则 如 公式 6-6 所 示 。 
公式 6-6: 多 数 票 决 分 类 





c(x) =argmax score(c,neighbors, (x)) 


ceclasses 
Hp “class” KI “Æ”, “score” Ka “EO”, Tlale LEAR neighbors,(x) 返回 的 是 个 体 x 的 
个 最 近邻 ，arg max 返回 的 是 使 下 一 个 量 达到 最 大 值 的 参数 (此 例 中 指 的 是 c)。 得 分 函数 的 
定义 如 公式 6-7 所 示 。 


公式 6-7: 多 数 票 决 得 分 函数 

















score(c, N) = > [class(y) =c] 


此 处 如 果 class) =c, HBA [class(y) = c] 的 值 就 为 1， 否则 为 0。 
6.2.3 节 中 探讨 的 相似 性 适度 投票 ， 就 可 以 用 加 入 权重 的 公式 6-6， 也 即 公 式 6-8 来 完成 。 
公式 6-8: 相似 性 适度 分 类 


score(c, N) = 》 w(x,y)x[class(y) =c] 


yeN 


其 中 w 是 基于 x 和 y 的 相似 性 的 权重 函数 。 距 离 平 方 的 倒数 非常 常用 : 


w(x,y) = La sate =) 
K dist?’ (x,y) 


其 中 dist 是 该 领域 中 使 用 的 任何 一 种 距离 国 数 。 


将 公式 6-6 和 公式 6-8 转化 后 ， 我 们 可 以 轻松 地 输出 用 于 进行 概率 估计 的 评分 。 而 由 于 后 
者 已 经 输出 了 评分 ， 因 而 我 们 仅 需 将 该 评分 按 所 有 近邻 (neighbors) 贡献 的 总 分 数 标准 
化 ， 使 之 介 于 0 和 1 之 间 ， 如 公式 6-9 所 示 。 


公式 6-9: 相似 性 适度 评分 





w(x,y) x[class(y) =c] 


| x) _ yeneighbors(x) 





ue ÈE wey) 
y eneighbors(x) 
最 后 ， 只 需 再 做 一 步 ， 该 公式 就 可 以 推广 到 回归 中 了 。 回 忆 一 下 ， 回 归 问 题 不 是 在 估计 新 
实例 x 的 类 别 ， 而 是 通过 在 函数 /中 输入 x 近邻 的 一 些 值 来 估计 Jo 的 值 。 我 们 只 需 把 公 
式 6-9 里 括号 内 包含 类 的 部 分 换 成 数值 ， 就 能 计算 出 近邻 目标 变量 的 加 权 平 均值 AR 
数 因应 用 场景 而 异 ， 有 可 能 需要 替换 成 中 位 数 等 )， 也 就 是 回归 估计 值 。 


公式 6-10: 相似 性 适度 回归 












































2 mwCcy)x1O) 
fœ _ yeneighbors(x) 
w(x,y) 


yeneighbors(x) 
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其 中 ty) 是 实例 的 目标 变量 值 。 


所 以 ， 假 如 要 根据 潜在 用 户 的 某 些 特征 来 估计 其 预期 支出 ， 我 们 可 以 用 公式 6-10， 通 过 计 
算 其 近邻 的 历史 支出 额 的 距离 加 权 平 均值 得 出 结果 。 








6.4 RŽ 

本 章 开头 提出 ， 相 似 性 和 距离 的 概念 是 数据 科学 领域 中 许多 内 容 的 基础 。 为 了 加 深 对 这 些 
概念 的 理解 ， 我 们 来 探讨 另 一 种 截然 不 同 的 任务 。 回 忆 一 下 我 们 深入 学 习 的 第 一 个 数据 科 
学 应 用 : 有 监督 的 划分 一 一 根据 某 些 我 们 关心 的 目标 变量 的 不 同 取 值 对 个 体 进行 分 组 。 比 
an, 根据 合约 到 期 后 离开 公司 的 倾向 不 同 对 用 户 进行 分 组 。 这 里 有 一 个 问题 : 为 什么 在 谈 
论 有 监督 的 划分 时 ， 总 是 使 用 修饰 词 “ 有 监督 ” 呢 ? 


有 时 候 我 们 则 会 在 没有 预 设 的 目标 特性 的 情况 下 给 个 体 一 一 比如 用 户 一 一 分 组 。 他 们 是 否 
天 然 地 归属 于 不 同 分 组 ?需要 弄 清 楚 这 一 点 的 原因 有 很 多 。 比 如 ， 有 时 候 我 们 需要 从 更 广 
阔 的 视角 来 回顾 一 下 营销 活动 的 能 多 我 们 是 否 了 解 用 户 ? 能 否 在 了 解 用 户 自然 存在 的 
分 组 后 ， 开 发 出 更 好 的 产品 、 开 展 更 好 的 营销 活动 、 采 用 更 好 的 销售 手段 和 提供 更 好 的 客 
户 服 务 ? 从 数据 中 发 现 天 然 分 组 的 概念 叫 作 无 监督 的 划分 ， 或 简称 为 聚 类 。 


聚 类 是 相似 性 这 一 基本 概念 的 另 一 种 应 用 。 其 基本 思路 是 ， 找 出 个 体 (如 用 户 、 企 业 、 威 
tE) 的 某 种 分 组 ， 使 得 同一 组 内 的 个 体 之 间 相似 ， 不 同 组 内 的 个 体 之 间 不 相似 。 
























































有 监督 建 模 方法 是 基于 目标 变 a E 够 预测 特定 目标 变量 的 
值 的 模式 。 无 监督 建 模 则 不 关注 目标 变量 ， 而 是 寻找 数据 中 其 他 形式 的 规律 。 














6.4.1 示例 : 威士忌 分 析 回 顾 


在 详细 探讨 之 前 ， 请 先 回顾 一 下 威士忌 分 析 的 示例 。 既 然 我 们 已 经 用 了 相似 性 测度 来 寻找 
相似 的 纯 老 苏格兰 威士忌 ， 为 什么 又 要 进一步 寻找 相似 威 士 总 的 禾 呢 ? 


原因 之 一 是 ， 我 们 单纯 想 进一步 了 解 这 个 问题 。 这 是 一 个 探索 性 数据 分 析 示 例 ， 包 含 大量 
数据 的 行业 应 该 对 此 持续 投入 人 力 物 力 ， 因 为 这 样 的 探索 大 有 神 益 。 在 本 示例 中 ， 我 们 之 
T ， 仅 仅 是 因为 想 知道 品味 的 天 然 分 组 一 因为 我 们 希望 理解 该 “ 业 

， 而 这 或 许 色 还 来 产品 或 服务 质量 的 提升 。 假 设 我 们 在 一 个 富裕 的 社区 开 了 一 家 小 店 ， 
te iron 略 之 一 是 让 邻居 们 知道 本 店 是 购买 纯 麦 苏格兰 威士忌 的 好 去 处 。 虽 然 由 于 
场地 和 库存 资金 有 限 ， 因 而 店内 的 威士忌 种 类 并 非 最 全 ， 但 是 本 店 可 以 采取 广泛 多 样 、 博 
采 众 长 的 收藏 策略 。 如 果 知 道 纯 麦 威 士 总 的 口味 的 分 组 方式 ， 我 们 就 能 (比如 ) 在 每 个 口 
味 分 组 中 找 出 最 知名 的 一 种 和 知名 度 略 低 的 一 种 ， 或 昂贵 的 一 种 和 价格 较为 亲民 的 一 种 。 
Tk LE ABE Pt AES RAR A TH 


现在 ， 对 聚 类 做 更 一 般 性 的 探讨 。 本 章 将 介绍 两 种 主要 的 聚 类 ， 同 时 说 明 相似 性 的 概念 。 
在 此 过 程 中 ， 我 们 可 以 检验 实际 的 威士忌 聚 类 。 
































6.4.2 ”层次 聚 类 

先 举 一 个 非常 简单 的 例子 。 图 6-6 上 半 部 分 的 平面 ( 即 二 维 实例 空间 ) 上 排列 着 6 个 点 
A~F。 使 用 欧 几 里 德 距离 度量 相似 性 ， 让 平面 上 距离 较 近 的 点 相似 性 较 高 。 编 号 为 1~5 的 
圆圈 将 数据 点 圈 起 ， 表 示 复 。 该 图 展示 了 “层次 ” 聚 类 的 关键 要 素 。 这 种 方法 之 所 以 是 聚 
类 方法 ， 是 因为 它 根据 数据 点 的 相似 性 对 其 进行 了 分 组 。 注 意 ， 复 只 有 被 另 一 个 徐 包 含 时 
才 会 出 现 重 又 。 由 于 这 种 结构 ， 因 而 圆圈 实际 上 代表 了 育 类 的 层次 结构 。 最 普遍 (级别 最 
高 ) 的 肾 类 是 一 个 包含 所 有 数据 点 的 徐 ， 即 示例 中 的 徐 5。 而 级 别 最 低 的 聚 类 有 6 个 (最 
小 复 ) ， 即 移 除 所 有 圆圈 时 剩 下 的 6 个 数据 点 。 按 照 图 中 编号 从 大 到 小 移 除 圆圈 之 后 ， 我 
们 可 以 得 到 一 系列 不 同 的 聚 类 方式 ， 每 个 都 会 包含 数量 更 多 的 禾 。 
























































距离 

















图 6-6: 6 个 数据 点 以 及 它们 可 能 的 聚 类 。 上 半 部 分 中 的 6 个 点 A~F 用 圆圈 1~5 圈 起 来 ， 代 表 基于 
距离 的 不 同 分 组 。 这 些 分 组 构成 了 隐 性 的 层次 结构 。 下 半 部 分 是 一 幅 与 分 组 相对 应 的 树 状 图 ， 
明确 展示 了 层次 结构 
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下 半 部 分 叫 作 树 状 图 ， 能 够 表明 得 之 间 的 层次 。x 轴 表 示 每 个 数据 点 (顺序 不 分 先后 ， 单 
纯 为 避免 线条 交叉 ) y 轴 则 表示 得 之 间 的 距离 (本 章 很 快 会 详细 探讨 这 一 点 )。 在 该 部 分 
最 底部 (y = 0 时) ， 每 个 点 都 是 一 个 独立 的 徐 。 随 着 ? 的 增 大 ， 不 同 组 的 复 开 始 受到 距离 
限制 ,先是 A 和 C 被 归 为 一 组 ， 再 是 B 和 E， 然 后 BE 和 DD， 以 此 类 推 直到 所 有 矮 都 在 
顶部 归 为 一 组 。 树 状 图 中 结合 点 的 数字 与 上 半 部 分 中 的 圆圈 标号 相对 应 。 
图 6-6 的 两 部 分 都 说 明 ， 层 次 聚 类 不 仅仅 构造 了 “ 聚 类 ”， 或 是 个 体 的 一 系列 单纯 分 组 ， 还 
构造 了 一 系列 对 数据 点 进行 分 组 的 方法 。 为 明确 这 一 点 ， 不 妨 设想 用 一 条 水 平 线 对 树 状 图 
进行 “切割 *， 并 忽略 线 以 上 的 部 分 。 随 着 线 逐 渐 下 移 ， 我 们 会 得 到 包含 越 来 越 多 个 簇 的 
不 同 聚 类 方式 ， 如 图 所 示 。 在 名 为 “2 个 徐 ” 的 线 处 切 制 这 幅 树 状 图 ， 线 的 下 方 就 会 出 现 
2 个 组 一 一 由 F 独自 构成 的 组 和 由 其 余 所 有 数据 点 构成 的 组 。 这 次 操作 相当 于 移 除 了 上 半 
部 分 的 图 中 的 圆圈 5。 如 果 我 们 往 下 走 ， 在 名 为 “3 个 徐 ” 的 线 处 切割 这 棵 树 ， 那 么 线 的 
下 方 就 会 出 现 3 个 组 (AC、BED、F)。 而 与 此 对 应 的 是 在 上 半 部 分 的 图 中 移 除 圆圈 5 和 
4， 这 样 一 来 ， 我 们 也 能 得 到 相同 的 3 个 徐 。 这 些 符 直观 易 懂 : F 依旧 单独 成 组 ，A 和 C 
构成 一 组 ， 而 B、E 和 D 构成 一 组 。 
层次 聚 类 的 好 处 之 一 是 ， 数 据 分 析 师 可 以 在 决定 获取 的 矮 个 数 之 前 看 到 分 组 情况 ， 即 数据 
相似 性 的 “格局 ”。 我 们 可 以 根据 想 要 的 得 的 数目 ， 在 图 表 的 任意 位 置 进行 切割 ， 如 图 中 
的 水 平 虚线 所 示 。 注 意 ， 一 旦 两 个 徐 在 某 个 水 平 处 合 为 一 组 ， 它 们 就 将 在 层次 更 高 水 平 处 
保持 为 一 组 。 
层次 聚 类 通常 是 从 各 数据 点 单独 成 徐 开 始 的 。 然 后 这 些 徐 和 迭代 合并 ， 直 到 最 后 只 剩 下 一 个 
复 。 这 样 的 合并 基于 相似 性 ， 或 所 选 的 距离 函数 。 到 目前 为 止 ， 本 章 已 经 讨论 了 实例 间 的 
距离 。 层 次 聚 类 需要 的 是 复 之 间 的 距离 国 数 ， 同 时 可 以 而 把 实例 视 作 最 小 徐 。 这 有 时 候 也 
称 为 链接 国 数 。 举 个 例子 ， 链 接 函 数 可 以 定义 为 “每 个 徐 距 离 最 近 的 点 之 间 的 欧 几 里 得 距 
离 "， 然 后 应 用 于 任意 两 个 禾 。 

树 状 图 

我 们 通常 可 以 从 树 状 图 中 得 到 两 种 信息 。 由 于 y 轴 代 表 徐 之 间 的 距离 ， 因 

而 树 状 图 可 以 告诉 我 们 天 然 徐 出 现 的 位 置 。 注 意 ， 图 6-6 的 树 状 图 中 ， 徐 3 

( 约 在 0.10 处 ) FOG 4 ( 约 在 0.17 处 ) 的 距离 相对 较 远 ， 这 意味 着 将 数据 划 

分 成 3 组 是 较 好 的 选择 。 另 外 ， 树 状 图 中 的 F 点 在 极 高 的 距离 水 平 处 才 与 

其 他 点 合 为 一 组 ， 这 意味 着 该 点 与 其 他 点 存在 差异 ， 可 能 是 一 个 “ 离 群 点 ”， 

需要 对 其 进行 进一步 探究 。 




















































































































层次 聚 类 最 车 名 的 运用 出 自 “生命 之 树 ”(Sugden 等 , 2003; Pennisi, 2003 ) ， 这 是 一 幅 包 含 
地 球 上 所 有 生命 的 层次 发 展 史 图 。 这 幅 图 基于 某 种 RNA 序列 的 层次 聚 类 。 交 互 式 生命 之 
树 的 一 部 分 如 图 6-7 所 示 (Letunic & Bork, 2006) 。 就 像 此 处 一 样 ， 通 常 为 了 节省 空间 ， 大 
型 的 层次 树 会 采用 径 向 方式 展示 。 该 图 展示 了 全 基因 组 测序 的 全 球 (分 类 学 ) RRE, H 
Francesca Ciccarelli 及 其 同事 (2006) 自动 重 构 ， 其 中 心 是 地 球 上 所 有 生命 “最 后 的 共同 
祖先 ”， 由 此 出 现 了 三 个 生命 分 支 〈 真 核 生 物 、 细 菌 和 十 生 菌 )。 图 6-8 放大 了 树 的 一 部 分 ， 
其 中 包含 幽门 螺杆 菌 〈 能 导致 胃 溃 疡 ) 。 
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B 6-7: 展示 生命 之 树 一 一 物种 的 大 型 层次 聚 类 一 一 的 发 展 史 图 ， 按 径 向 展示 





Helicobacter pylori 26695 
Helicobacter Pylori J99 
Helicobacter hepaticus 
Wolinella succinogenes 
Campylobacter jejuni 


Bdellovibrio bacteriovorus = 








图 6-8: 生命 之 树 的 一 部 分 ” 














注 6: 包含 几 种 生物 及 其 层次 关系 。 一 一 译 者 注 
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回 到 本 章 开头 的 示例 ， 图 6-9 是 一 幅 树 状 图 ， 其 上 半 部 分 展示 了 50 种 纯 麦 苏格兰 威 士 喇 用 
Lapointe 和 Legendre (1994) 发 明 的 方法 进行 聚 类 的 结果 。 在 对 该 树 状 图 进行 切割 后 ,我 
们 可 以 根据 自己 的 要 求 得 到 任意 数量 的 徐 ， 比 如 ， 在 移 除 最 上 方 的 11 个 连接 分 类 后 ， 可 
以 得 到 12 74K. 


6-9 的 下 半 部 分 则 以 Foster 的 新 欢 一 一 Bunnahabhain MESA, Kiba BR T 
闭合 。 在 6.2.1 HH, RARE TSS MES, mE 6-9 告诉 我 们 ，Bunnahabhain 的 
这 些 最 近邻 (Tullibardine、Glenglassaugh 等 ) 在 层次 中 的 确 很 快 与 之 归 为 一 组 。( 你 可 能 会 
感到 迷惑 ， 为 什么 聚 类 结果 与 相似 性 排序 不 完全 一 致 。 这 是 因为 ， 这 五 种 与 Bunnahabhain 
最 为 相似 的 威 士 总 中， 可 能 有 的 与 其 他 威 士 总 更 为 相似 ， 所 以 它们 会 在 与 Bunnahabhain 合 
并 前 ， 先 与 那些 威 十 总 并 为 一 类 。) 

有 趣 的 是 ， 从 威士忌 分 类 的 角度 看 ， 基 于 口味 的 纯 麦 威 士 总 分 组 并 不 与 基于 办 格 兰 地 区 规 
划 的 分 组 〈 苏 格 兰 威士忌 分 类 的 常用 基准 ) 完全 一 致 。 但 Lapointe 和 Legendre (1994) 指 
出 ， 这 两 者 存在 相关 性 。 
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图 6-9: 苏格兰 威士忌 的 层次 聚 类 。 这 一 小 部 分 层级 展示 了 Bunnahabhain 及 其 近邻 的 聚 类 结果 





所 以 该 专卖 店主 不 应 仅仅 储存 知名 度 最 高 的 苏格兰 威 士 恕 ， 或 一 些 高 地 、 低 地 和 艾 雷 岛 品 
牌 的 威士忌 ， 而 应 该 在 不 同 的 徐 中 选择 库存 。 或 者 提供 一 份 帮助 纯 麦 威 士 总 爱好 者 挑选 
威士忌 的 指南 。 " 例如， 因为 Foster 喜欢 他 的 朋友 在 某 天 晚餐 时 推荐 给 他 的 Bunnahabhain, 
所 以 他 可 以 从 聚 类 结果 中 找 出 其 他 与 之 “最 相似 ”的 威士忌 (Bruichladdich, Tullibardine 
等 )。 数 据 显 示 ， 口 味 最 与 众 不 同 的 纯 麦 威士忌 是 最 上 面 的 Aultmore 一 一 它 最 后 才 与 其 他 
威 士 总 合 为 一 组 。 


6.4.3 ”最 近邻 回顾 : 根据 形 心 的 聚 类 

层次 聚 类 关注 的 是 不 同 实例 间 的 相似 性 ， 以 及 如 何 依据 相似 性 将 它们 进行 链接 。 而 另 一 种 
考虑 聚 类 数据 的 方法 是 关注 徐 本 身 ， 即 实例 构成 的 组 。 最 常见 的 后 一 种 方法 是 用 每 个 复 的 
“ 复 中 心 ”， 或 称 形 心 ， 来 代表 每 一 个 徐 。 图 6-10 展示 了 该 理念 在 二 维 空间 中 的 应 用 : 此 处 
有 3 个 符 ， 其 实例 均 用 圆圈 表示 。 每 个 复 都 有 一 个 形 心 ， 用 实 线 星 形 表 示 ， 这 颗 “ 星 ”并 
不 一 定 是 某 个 实例 ， 而 是 这 个 组 的 几何 中 心 。 只 要 有 数值 实例 空间 和 度量 其 中 距离 的 方法 
(当然 ， 如 果 是 高 维 空 间 ， 我 们 就 无 法 这 么 准确 地 对 徐 进 行 可 视 化 ) ， 这 种 理念 就 可 以 应 用 
于 任意 数目 维度 的 空间 。 



























































注 7: 已 经 有 人 完成 了 ， 参 见 David Wishart (2006) 的 Whisky Classified: Choosing Single Malts by Flavour, 
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最 常用 的 基于 形 心 的 聚 类 算法 称 作 丰 均值 聚 类 (MacQueen, 1967; Lloyd, 1982; MacKay, 
2003)， 由 于 该 方法 在 数据 科学 领域 使 用 频繁 ， 因 而 值得 我 们 对 其 主要 概念 加 以 探讨 。 磊 
均值 的 “均值 ” 指 的 是 形 心 ， 即 复 中 实例 在 每 个 维度 上 的 值 的 算术 平均 值 〈 平 均值 ) 。 因 
此 在 图 6-10 中 ， 在 确定 每 个 复 的 形 心 的 位 置 时 ， 我 们 既 要 对 复 中 所 有 实例 的 x 值 求 平均 ， 
以 得 到 形 心 的 x 坐标 ， 还 要 对 复 中 所 有 数据 点 的 值 求 平均 ， 以 得 到 形 心 的 了 坐标。 一 般 
来 说 ， 形 心 是 复 中 所 有 实例 的 每 个 特征 值 的 平均 值 。 计 算 结果 如 图 6-10 所 示 。 




































































图 6-10: k- 均值 算法 的 第 二 步 : 找到 第 一 步 中 发 现 的 簇 的 实际 中 心 


而 天 均值 中 的 k 仅 是 在 数据 中 找到 的 徐 的 个 数 。 与 层次 聚 类 不 同 ，K- 均值 聚 类 首先 需要 确 
定 簇 个 数 k。 因 此 在 图 6-11 中 ， 分 析 师 先 规定 上 = 3， 然 后 天 均值 聚 类 算法 才 会 在 聚 类 算 
法 终止 时 找到 3 CREDO (图 6-10 中 的 3 个 实 线 星 形 )， 进 而 提供 数据 点 究竟 属于 哪个 徐 
的 信息 。 这 种 方法 有 时 也 叫 作 最 近邻 聚 类 ， 因 为 后 一 步 所 提供 的 恰恰 是 每 个 禾 包 含 的 所 有 
距离 形 心 最 近 (而 离 基 他 形 心 相对 较 远 ) 的 点 的 信息 。 


k- 均值 算法 寻找 徐 的 过 程 简 单 而 巧妙 ， 因 此 有 必要 对 其 进行 说 明 。 图 6-11 和 图 6-10 就 是 
这 种 方法 的 展现 ， 从 选 定 大 个 初始 复 中 心 开 始 ， 这 种 选择 通常 是 随机 的 ， 但 有 时 也 会 通过 
选择 实际 数据 点 的 其 中 上 个 ， 或 由 用 户 指 定 ， 或 根据 数据 预 处 理 结果 决定 一 系列 恰当 的 初 
始 中 心 。 图 6-11 中 的 星 形 点 就 是 这 些 初始 中 心 (k= 3)， 随 后 算法 开始 进行 。 在 判定 每 个 
数据 点 与 中 心 的 距离 关系 后 ， 与 这 些 中心 相 对 应 的 复 就 形成 了 ， 如 图 6-11 所 示 。 
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图 6-11: k- 均值 算法 的 第 一 步 : 找到 与 所 选 形 心 〈 可 能 随机 选择 ) 距离 最 近 的 点 ，j 
得 到 第 一 组 簇 


接 下 来 ， 我 们 要 重新 计算 每 个 徐 的 中 心 ， 以 找到 矮 形 心 的 实际 位 置 。 由 图 6-10 4, 
中 心 通 常会 发 生 改变 ， 新 的 实 线 星 形 的 确 更 接近 直观 上 的 往 中 心 ， 而 事实 上 也 大 抵 如 此 。 
随后 我 们 只 需 不 断 迭 代 该 过 程 : 由 于 徐 中 心 发 生 了 变化 ， 因 而 我 们 需要 重新 判定 每 个 数据 
点 的 归属 ( 见 图 6-11)， 然 后 再 次 计算 每 个 得 中 心 的 位 置 。 直 到 禾 不 再 发 生变 化 时 〈 或 达 
到 某 种 停止 条 件 时 ) ， 算 法 终止 。 


6-12 和 图 6-13 展示 了 对 90 个 数据 点 进行 Xk = 3 的 大 均值 聚 类 的 运行 过 程 。 这 个 数据 集 
更 接近 现实 情况 ， 因 为 其 中 不 含 像 前 一 个 示例 那样 可 用 肉眼 确定 的 徐 。 图 6-12 中 是 聚 类 之 
前 的 初始 数据 点 ， 而 图 6-13 则 是 在 16 次 迭代 之 后 的 聚 类 结果 ， 其 中 3 条 (不 规则 ) 线 代 
REVERB MRED IA (随机 ) 位 置 到 最 终 位 置 的 移动 路 径 。 图 中 的 3 个 徐 用 不 同 的 符 
号 (©, x 7P) 进行 了 区 分 。 
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图 6-12: 对 90 个 数据 点 做 k= 3 的 kk 均值 聚 类 。 图 中 是 数据 点 的 初始 状态 
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图 6-13: 对 90 PAE ra k=3 的 k- 均值 聚 类 。 该 图 像 展 示 了 形 心 在 16 次 迭代 过 程 中 的 移动 路 径 
(3 条 线 )， 数 据点 的 符号 标记 代表 该 点 最 终 属于 的 艇 
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单独 一 次 大 均值 算法 运行 不 一 定 能 产生 好 的 聚 类 。 运 行 一 次 聚 类 能 得 到 局 部 最 优 结果 ， 即 
局 部 最 佳 聚 类 ， 但 这 取决 于 最 初 的 形 心 位 置 。 因 此 我 们 往往 需要 多 次 和 运行 太 均值 算法 ， 昌 
每 次 都 随机 选择 不 同 的 初始 形 心 。 最 后 比较 聚 类 结果 时 ， 可 以 通过 检验 徐 来 比较 (后 文 将 
详细 讲述 ) ， 也 可 以 根据 数值 指标 来 比较 ， 如 得 的 失真 度 。 失 真 度 ， 即 簇 中 所 有 数据 点 与 
其 对 应 徐 形 心 的 距离 平方 之 和 。 失 真 度 越 低 ， 聚 类 越 优 良 。 

就 运行 时 间 而 言 ， 太 均值 算法 非常 高 效 。 由 于 只 需 在 每 次 迭代 时 计算 每 个 数据 点 到 签 中 心 
的 距离 ， 因 而 即使 运行 多 次 ， 该 方法 也 相对 较 快 。 而 层次 聚 类 则 通常 较 慢 ， 因 为 它 需要 在 
每 次 欠 代 时 计算 每 两 个 得 之 间 的 距离 ， 起 初 甚至 需要 计算 每 两 个 数据 点 之 间 的 距离 。 

k- 均值 算法 之 类 的 形 心算 法 通常 需要 注意 的 一 点 是 如 何 确定 恰当 的 大 值 。 我 们 可 以 简单 地 
尝试 不 同上 值 ， 以 比较 哪 一 个 的 结果 更 好 。 由 于 k 均 值 通常 用 于 探索 性 数据 挖掘 ， 因 而 分 
析 师 必须 检验 聚 类 结果 是 否 有 意义 ， 这 个 过 程 往往 可 以 帮助 确定 合适 的 k 值 。 如 果 有 的 簇 
过 小 且 过 于 详细 ， 那 么 可 以 减 小 上 值 ， 而 如 果 有 的 得 过 大 且 过 于 宽泛 ， 则 可 以 增 大 大 值 。 


我 们 还 可 以 采用 更 客观 的 方法 ， 即 不 断 增 大 大 值 ， 并 用 图 像 描绘 出 不 同 度量 方法 〈《 有 时 也 
称 作 指标 ) 下 不 同上 值 对 应 的 聚 类 的 质量 。 随 着 上 的 增 大 ， 聚 类 的 质量 终 会 趋 于 稳定 。 如 
果 该 度量 方法 是 最 小 值 最 优 ， 则 聚 类 的 质量 收 你 于 底部 ， 如 果 为 最 大 值 最 优 ， 则 聚 类 的 质 
量 收敛 于 顶部 。 虽 然 在 决定 上 值 时 ， 需 要 适当 加 以 判断 ， 但 我 们 往往 会 选择 平缓 趋势 最 早 
出 现时 的 上 值 。 维 基 百 科 的 文章 “Determining the number of clusters in a data set” 描 述 了 评 
估 徐 优良 程度 的 多 种 方法 。 


6.4.4 示例 : 对 商业 新 闻 报 道 进行 聚 类 

接 下 来 是 一 个 基于 形 心 的 聚 类 算法 的 具体 示例 : 识别 新 闻 聚 合 器 发 布 的 商业 新 闻 报 道 的 天 
然 分 组 。 该 示例 的 目标 是 简要 识别 有 关 某 个 公司 的 新 闻 报 道 的 不 同 分 组 。 这 个 示例 可 能 适 
用 于 某 些 具体 应 用 ， 比 如 : 快速 了 解 一 家 公司 的 新 闻 而 无 须 详 细 阅 读 新 闻 报 道 ， 在 新 闻 优 
先 级 处 理 中 对 现 有 的 报道 进行 分 类 ;或 在 进行 更 重要 的 数据 挖掘 工作 一 一 如 把 商业 新 闻 报 
道 与 股票 行情 相 联 系 一 一 前 对 数据 有 一 个 大 体 了 解 。 

本 例 选用 新 闻 报道 的 大 型 文本 集 : 汤 森 路 透 社 文本 研究 集 (TRC2)。 这 是 路 透 社 建立 的 新 
闻 语 料 库 ， 包 含 从 2008 年 1 月 到 2009 年 2 月 (14 个 月 ) 的 共 1 800 370 篇 新 闻 报道 ， 可 
供 研究 人 员 使 用 。 为 使 该 例 在 保证 真实 的 前 提 下 易于 处 理 ， 我 们 将 只 提取 其 中 提 及 苹果 公 
司 ( 股 票 代号 为 AAPL) 的 新 闻 。 

1. 数据 准备 

由 于 在 本 例 中 ， 需 要 把 文本 作为 数据 处 理 ， 而 该 做 法 前 文 并 未 提 及 ， 因 而 有 必要 先 详细 讲 
解 一 下 数据 准备 工作 。 第 10 章 包含 更 多 挖掘 文本 的 细节 ， 读 者 不 妨 一 读 。 

该 语料库 中 ， 大 型 企业 往往 会 在 作为 新 闻 主题 时 被 提 及 ， 这 样 的 新 闻 包 括 收益 报告 、 合 并 
公告 等 。 与 此 同时 ， 它 们 也 常常 作为 每 周 业务 总 结 、 活 跃 股票 清单 和 行业 重大 事件 新 闻 中 
的 次 要 主题 。 比 如 ， 许 多 有 关 个 人 计算 机 行业 的 新 闻 都 提 到 了 惠普 和 戴尔 的 股票 价格 在 某 
天 的 反应 情况 ， 即 使 这 两 个 公司 都 与 新 闻 中 的 事件 无 关 。 因 此 ， 我 们 提取 了 那些 标题 上 明 
确 提 及 了 “苹果 公司 ”的 新 闻 ， 这 意味 着 该 新 闻 有 很 大 可 能 是 关于 苹果 公司 的 新 闻 。 这 样 
的 新 闻 有 312 条 ， 我 们 将 会 看 到 它们 涵盖 了 许多 主题 。 
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在 聚 类 之 前 ， 需 要 先 对 新 闻 进 行 基本 的 网 页 文本 处 理 : 删除 其 中 的 HTML 和 URL 地 址 、 
统一 单词 大 小 写 ， 以 及 删除 在 语料库 中 出 现 次 数 过 少 (在 不 超过 两 篇 文章 中 出 现 过 ) 和 
过 多 (在 超过 50% 的 文章 中 出 现 过 ) 的 词 ， 并 把 剩 下 的 单词 编 为 词汇 表 ， 以 供 下 一 步 使 
用 。 然 后 我 们 用 “TFIDF 得 分 ”给 文章 中 的 每 个 单词 评分 ， 把 文章 转化 成 数值 特征 向 量 。 
TFIDF ( 词 频 与 逆 文 档 频 率 的 乘积 ) 得 分 表示 在 考虑 某 个 词 在 语料库 中 的 频率 的 影响 后 ， 
该 词 在 文章 中 的 频率 的 得 分 。 本 书 将 在 第 10 章 对 TFIDF 进行 详细 讲解 。 


此 处 相似 性 测度 用 的 是 余弦 相似 性 ， 如 公式 6-5 所 示 。 该 度量 方法 在 文本 应 用 中 常用 于 度 
量 文档 的 相似 性 。 


2. 新 闻 报 道 聚 类 

我 们 选择 把 新 闻 分 为 9 He (BIE k 均值 中 ,k= 9)。 下 文 展示 了 这 些 禾 的 描述 信息 ， 以 及 
算 中 包含 的 一 些 新 闻 标 题 。 应 该 记 住 的 是 ， 不 仅仅 是 这 些 标题 ， 而 是 整 篇 新 闻 报 道 都 被 用 
于 进行 聚 类 。 

EEL 有 关 等 级 变化 和 目标 股价 调整 的 分 析 师 公告 。 


。 加 拿 大 皇家 银行 (RBC) 将 苹果 公司 (AAPL.O) 目标 价格 从 $190 调整 为 $200， 保 持 
高 评级 

。 THINKPANMURE 给 苹果 公司 买 和 评级， 目标 价格 $225 

。 AMERICAN TECHNOLOGY 将 苹果 公司 (AAPL.O) 评级 由 中 性 升 为 买 人 

。 CARIS KERZE] (AAPL.O) 目标 价格 从 $170 调整 到 $200， 评 级 高 于 平均 

。 CARIS 将 苹果 公司 (AAPL.O) 目标 价格 从 $165 调整 到 $155， 评 级 保持 高 于 平均 

fe 2. 在 每 天 交易 过 程 中 及 交易 结束 后 ， 苹 果 公 司 股票 价格 变动 的 新 闻 。 

。 苹果 公司 股价 收 付 损失 ,价格 仍 下 降 5% 

。 苹果 公司 业绩 强劲 ， 股 价 上 涨 5% 

。 iPhone 需求 乐观 ， 全 果 公 司 股价 上 涨 

。 苹果 公司 股价 在 周二 事件 前 下 跌 

。 苹果 公司 股价 碳 升 ， 投 资 者 爱 其 估 值 

$E 3. 2008 年 出 现 了 许多 关于 全 果 公 司 卓越 的 CEO 一 一 史 蒂 夫 乔布斯 及 其 与 胰腺 癌 抗 争 

的 新 闻 ， 乔 布 斯 逐渐 恶化 的 健康 状况 引发 了 大 众 的 热烈 讨论 ， 许 多 商业 新 闻 都 在 推测 没有 

乔布斯 的 苹果 公司 的 未 来 将 会 如 何 ， 如 下 : 


。 分 析 一 一 人 苹果 公司 的 成 功 不 仅 与 史 蒂 夫 :乔布斯 有 关 

。 新 闻 人 物 一 一 乔布斯 的 勇敢 和 魅力 是 苹果 公司 的 公众 形象 

。 专栏 史 蒂 夫 离开 后 的 苹果 公司 损失 了 什么 : Eric Auchard 

。 苹果 公司 将 因 乔 布 斯 的 健康 问题 面临 诉讼 

。 即时 观点 1 一 一 苹果 公司 CEO 乔布斯 将 请 病假 

。 分 析 一 一 没有 乔布斯 的 苹果 公司 让 投资 者 感到 处 慢 

4 苹果 公司 的 公告 和 新 品 发 布 。 表 面 上 这 些 新 闻 都 很 类 似 ， 但 其 主题 各 有 不 同 : 


提出 Phone“ 推动 了 ”电邮 软件 
CFO 预 估 第 二 季度 利润 约 为 32% 
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$ 


| if 
7H AE AE 
D 


公司 对 2008 年 iPhone 销售 目标 大 有 信心 
Sa] CFO 预 估 第 三 季度 毛利 保持 稳定 
公司 将 在 3 月 6 日 讨论 iPhone 软件 计划 





Hh K 





$E $. 其 他 国家 有 关 iPhone 和 iPhone 交易 的 新 闻 。 


。 MegaFon 称 将 在 俄罗斯 销售 苹果 iPhone 

。 泰国 True Move 将 与 苹果 公司 合作 销售 3G iPhone 

。 俄罗斯 零售 商 将 于 10 月 3 日 开始 销售 苹果 iPhone 

。 泰国 AIS 与 苹果 公司 交涉 iPhone 发 布 日 期 

。 软银 (Softbank) 称 将 在 日 本 销售 苹果 iPhone 

o 正常 交易 时 间 之 外 〈 即 开盘 前 和 收盘 后 ) 的 股价 变动 。 
。 开盘 前 一 一 人 苹果 公司 股价 因 券 商 动作 缓慢 增长 

。 开盘 前 一 一 苹果 公司 股价 上 涨 1.6% 

。 开盘 前 一 一 券商 评级 下调， 苹果 公司 股价 下 请 

。 收盘 后 一 一 人 苹果 公司 股价 下 跌 

。 收盘 后 一 一 苹果 公司 股价 继续 下 跌 

7. 该 徐 无 一 致 主题 。 

。 分 析 一 一 别 太 高 兴 ! 苹果 公司 将 面临 不 确定 的 2009 年 
。 新 闻 一 痪 一 一 苹果 公司 Macworld 大 会 

。 苹果 公司 关注 纤 薄 本 及 线 上 电影 租赁 

。 苹果 公司 乔布斯 结束 电影 计划 演讲 

fk 8. 有 关 iTunes 和 苹果 公司 在 数字 音乐 销售 中 的 地 位 的 新 闻 。 
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。 紧 跟 时 代 一 一 诺基亚 进入 数字 音乐 市 场 ， 与 苹果 公司 对 抗 
。 ER iTunes 上 升 为 美国 第 二 大 音乐 零售 商 








。 苹果 公司 或 将 降低 iTunes 竞争 热度 


。 诺基亚 将 接 棒 人 苹果， 开发 音乐 触 屏 手机 
。 侠 果 公司 与 各 品牌 协商 无 限 音 乐事 宜 




































































BR 9.“ 新 闻 短 讯 ” 是 路 透 社 新 闻 报道 的 其 中 一 种 ， 通 常 是 几 条 语言 精练 的 列 项 短 句 (如: 
“ 据 称 新 电影 DVD 发 售 当 天 即 可 在 iTunes 购买 ")。 “BRIN” HAAS, (A 
形式 相似 ， 我 们 将 其 归 为 一 组 : 


。 新 闻 短 讯 一 一 苹果 公司 发 布 Safari 3.1 

。 新 闻 短 讯 一 一 苹果 公司 推出 ilife 2009 

。 新 闻 短 讯 一 一 苹果 公司 宣布 iPhone 2.0 软件 测试 

。 新 闻 短 讯 一 一 新 电影 DVD 发 售 当 天 将 在 iTunes 同步 上 线 
。 新 闻 短 讯 一 一 苹果 公司 称 iPhone 3G 首 周 销量 达 一 百 万 


为 其 





可 以 看 出 ， 有 的 徐 很 有 趣 ， 而 且 主 题 一 致 ， 有 的 却 不 然 ， 有 的 仅 是 表面 上 相似 的 文本 的 集 
合 。 统 计 学 中 有 一 名 老话 :“ 相 关 性 不 是 因果 关系 "， 指 两 个 事件 共 现 并 不 意味 着 两 者 之 间 
存在 因果 关系 。 聚 类 中 也 有 一 名 相似 的 警告 :“ 语 法 相似 不 等 于 语义 相似 ”， 不 能 因为 两 件 
事物 (尤其 是 两 篇 文章 ) 有 相同 的 表面 特征 ， 就 认定 它们 语义 上 也 一 定 相关 。 虽 然 我 们 不 
期 望 每 个 禾 都 有 意义 上 且 有 趣 ， 但 聚 类 往往 可 以 在 数据 中 发 掘 出 出 乎 意料 的 结构 。 徐 还 能 使 
RRM LAE EBLE 


6.4.5 理解 聚 类 结果 

规定 好 了 数据 格式 并 将 其 聚 类 ， 下 一 步 又 该 如 何 ” 上 文中 提 到 过 ， 聚 类 结果 要 么 是 树 状 
图 ， 要 么 是 一 系列 复 中 心 及 其 对 应 的 数据 点 。 那 么 该 如 何 理解 这 些 聚 类 结果 呢 ? 这 一 点 尤 
其 重要 ， 因 为 聚 类 通常 用 于 探索 性 分 析 ， 而 探索 性 分 析 的 关键 就 是 理解 是 否 有 什么 被 发 现 
了 ， 如 果 是 ， 究 竟 发 现 了 什么 。 
对 聚 类 和 徐 的 理解 依赖 于 聚 类 所 用 的 数据 ， 以 及 其 应 用 背景 ， 但 也 存在 一 些 通用 的 方法 。 
其 中 几 种 我 们 已 经 运用 过 了 。 

请 思考 上 面 的 威士忌 示例 。 “威士忌 研究 员 ”Lapointe 和 Legendre 把 聚 类 树 状 图 切割 到 剩 
下 12 符 。 以 下 是 其 中 两 个 。 

A 组 















































































































































品种 : Aberfeldy, Glenugie, Laphroaig, Scapa 
H 组 


品种 : Bruichladdich, Deanston, Fettercairn, Glenfiddich, Glen Mhor, Glen Spey, Glentauchers, 
Ladyburn, Tobermory 


PAE, ERRIN, Bel A LS a RA E. LAPRE, (Hinde, afi 
(KAA EE AAS STR TE BH, RAL BEC ED AE ER I RA ee | (因而 成 
为 本 书 中 一 个 优良 示例 ) 呢 ? 你 可 能 会 觉得 ， 这 是 因为 该 合 中 的 威士忌 总 数 很 少 ， 因 此 很 
容易 便 可 以 观察 它们 全 部 。 这 一 点 设 错 ， 但 并 不 是 问题 关键 。 这 是 因为 即使 示例 中 威士忌 
种 类 党 多 ， 我 们 仍然 可 以 对 每 个 徐 中 的 威 士 总 取样 来 展示 每 个 徐 的 组 成 。 

要 理解 这 些 徐 ， 更 重要 的 因素 【至少 对 于 那些 稍微 了 解 纯 麦 威 士 总 的 人 来 说 ) 是 得 中 的 元 
素 可 以 表示 为 威士忌 的 名 字 。 本 例 中 ， 这 些 数据 点 的 名 字 本 身 就 具有 意义 ， 包 含 着 能 被 专 
家 理解 的 信息 。 

这 一 点 给 我 们 的 启发 可 以 推广 到 其 他 领域 。 例 如 ， 如 果 要 对 某 个 大 型 零售 商 的 用 户 进行 聚 
类 ， 那 么 用 户 的 姓名 可 能 意义 不 大 ， 因 此 这 种 理解 聚 类 结果 的 方法 也 就 毫 无 用 处 ， 然 而 ， 
如 果 IBM 要 对 它 的 商业 用 户 进行 聚 类 ， 那 么 〈 至 少 其 中 的 很 多 ) 用 户 的 名 字 就 对 经 理 或 销 
BARE MEK. 

如 果 不 能 单纯 地 展示 数据 点 的 名 称 ， 或 展示 名 称 意义 不 大 ， 又 应 该 怎么 做 呢 ? 请 再 
下 威士忌 示例 里 的 聚 类 ， 但 是 这 次 要 多 观察 里 面 的 一 些 信 息 。 
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A 组 

上 品种: Aberfeldy、Glenugie、Laphroaig、Scapa 

tA GE: Laphroaig (Islay 品种 )，10 年 ，86 分 

一 般 特征 : 全 人 金 ， 果 香 、 咸 香 ， 中 等 油 滑 、 咸 味 、 雪 利 酒 味 ， 苗 味 
H 组 


上 品种 : Bruichladdich, Deanston, Fettercairn, Glenfiddich, Glen Mhor, Glen Spey, Glentauchers, 
Ladyburn, Tobermory 

。 SAREE: Bruichladdich (Islay 品种 ) ，10 年 ，76 分 
一 般 特 征 : 白 葡萄 酒 、 淡 色 ， 甜 香 ， Set. Pees AIR, TER, RIR, WER, TER, 


Ta. 














BML TAA ERE RA a. Ae TERA ZIP, ee 
To “REI? Bor, BD ARE” . SH Jackson (1989) PRI G&A 
AIM AA AAA RASS). BEAT AT LAS RAN Se ae ely FA — BE A TKS 
TiS EIR Be at BOCA, Ake LE PEA” ECL EA LR. PR 
而 ， 这 依旧 建立 在 实例 的 名 称 有 意义 的 基础 上 。 另 一 个 对 商业 新 闻 报 道 聚 类 的 示例 ， 则 对 
这 种 总 体 思 路 略微 做 了 改动 : 展示 “ 样 例 ”新 闻 及 其 大 标题 ， 因 为 这 些 大 标题 是 新 闻 的 有 
意义 的 摘要 。 

本 例 还 阐述 了 另 一 种 理解 聚 类 结果 的 方法 : 徐 成 员 的 平均 特征 ， 即 繁 形 心 。 任 何 聚 类 过 程 
都 可 以 应 用 这 种 展示 形 心 的 方法 。 但 这 样 是 否 有 意义 ， 则 取决 于 数据 的 值 本 身 是 否 有 意 
义 。 


6.4.6 “用 有 监督 学 习 产 生 簇 描 述 


_ 人 从、 前 方 有 技术 细节 ! 

> 这 一 节 描述 了 一 种 自动 生成 簇 描 述 的 方法 。 这 种 方法 比 之 前 讨论 的 那 种 更 为 
4 复杂 。 它 涉及 将 无 监督 学 习 〈 即 聚 类 ) 和 有 监督 学 习 相 结合 ， 以 创造 出 一 种 
伐 的 差异 描述 。 如 果 你 是 第 一 次 了 解 聚 类 和 无 监督 学 习 ， 那 么 你 可 能 会 在 阅 
读 中 产生 不 少 疑惑 ， 因 此 我 们 将 这 一 节 加 了 星 标高 级 学 习 资 料 )。 即 便 你 
跳 过 不 读 也 不 影响 前 后 文 的 连续 性 。 






































无 论 产 生 聚 类 的 方式 如 何 ， 最 终 我 们 都 会 知道 每 个 数据 点 被 分 配 到 哪个 徐 。 而 徐 形 心 实际 
上 描述 了 簇 成 员 的 平均 水 平 。 问 题 是 ， 虽 然 这 种 描述 可 能 会 十 分 详尽 ， 但 是 我 们 无 法 从 中 
了 解 禾 之 间 的 差别 。 我 们 想 知 道 : 到 底 是 什么 因素 将 每 个 簇 区 分 开 来 ?而 这 正 是 有 监督 学 
习 方法 的 用 处 ， 因 而 我 们 可 以 运用 这 种 方法 。 


运用 该 方法 的 一 般 步 骤 为 : 首先 给 每 个 实例 添加 得 标签 ， 而 该 标签 也 能 作为 类 标签 ， 然 后 
对 有 标签 的 实例 集 应 用 有 监督 学 习 算法 ， 以 产生 每 个 类 (BGR) 的 分 类 器 ， 其 后 通过 观察 
分 类 器 的 描述 ，( 很 可 能 ) 得 到 相应 答 的 易于 理解 而 又 具体 的 描述 。 重 要 的 是 ， 这 些 正 是 
差异 描述 ， 回 答 了 “到 底 是 什么 因素 将 每 个 禾 区 分 开 来 "。 











ARER, FRERE, FF ICE aE ae 


原则 上 我 们 可 以 使 用 任何 预测 (有 监督 ) PARE RA Ze SR , (ELE cb ie BEY py 
是 易 理 解 性 。 因 为 我 们 要 把 学 习 后 的 分 类 器 定义 作为 簇 描述 ， 所 以 需要 一 个 能 达到 该 目的 
的 模型 。 因 为 3.4 节 展 示 了 如 何 从 分 类 树 中 提取 规则 ， 所 以 可 以 选用 这 个 方法 。 

建立 分 类 任务 的 方法 有 两 种 。 由 于 我 们 有 大 个 化， 因而 可 以 建立 一 个 厂 类 任务 (一 个 类 对 
应 一 个 复 )。 或 者 ， 我 们 也 可 以 分 别 建立 上 个 学 习 任 务 ， 每 个 任务 都 用 于 将 1 个 徐 与 其 他 
(k-1) A$ KAIF. 

ASTRA = APR AE SSR AE a], tE Lapointe Fil Legendre AY 4> BC HEN D iE 
( 详 见 “A Classification of Pure Malt Scotch Whiskies” 附 录 A), MEERA 12 WME, R 
号 为 A~L。 我 们 将 在 原 数 据 中 增加 一 列 篮 归属 信息 ， 表 明 每 种 威士忌 属于 哪 一 符 。 然 后 利 
Fak, Pea MES RABE TOA, LERE T JH, Lapointe 7 Legendre 是 
下 面 这 样 描述 的 。 

J 组 


。 品种 : Glen Albyn, Glengoyne, Glen Grant, Glenlossie, Linkwood, North Port, Saint 
Magdalene, Tamdhu 

。 $A EGE: Linkwood (Speyside 品种 )，12 年 ，83 分 

。 一 般 特 征 : 全 金 ， 昔 香 、 泥 煤 香 、 雪 利 酒 香 ， 轻 僵 到 中 等 、 圆 润 ， 甜 味 ， 苦 味 


你 可 以 回顾 6.2.1 节 中 各 种 威 士 号 的 68 个 二 元 特征 。 现 在 数据 集 有 了 标签 (J 或 not J), DA 
标明 该 威士忌 是 否 属 于 J 组 。 下 面 是 数据 集 的 一 部 分 : 


















































7 























% Glen Grant 
_J % Glen Keith 
_J % Glen Mhor 


0,0,0,...,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,) 
0,0,0,...,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,n 
0,0,0,...,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,n 





“%” 后 面 的 文本 是 威士忌 名 称 的 注释 。 
然后 我 们 把 该 数据 集 输入 到 分 类 树 学 习 器 中 “， 结 果 如 图 6-14 所 示 。 

















注 8: 特 指 Weka 的 J48 过 程 (http://www.cs.waikato.ac.nz/ml/weka/)， 但 不 包括 剪 枝 。 
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口感 = 圆润 


faim 









香味 = 雪 利 酒 香 














图 6-14: 根据 J 组 数据 ， 对 所 有 威士忌 数据 进行 学 习 得 到 的 决策 树 。 最 右边 的 叶 节点 对 应 口感 圆润 、 
带 有 雪 利 酒 香 的 威士忌 ， 该 分 类 下 的 威士忌 大 多 数 来 自 J 组 


我 们 只 关注 这 棵 树 中 标签 为 J 的 叶 节 点 (忽略 标签 为 not_J 的 叶 布 点 )， 这 样 的 叶 节 点 只 
两 个 。 根 据 根 节点 到 叶 节 点 的 路 径 ， 我 们 可 以 提取 出 两 条 规则 : 
(1) (口感 = 圆润) 且 (香味 = 雪 利 酒 香 =1) > 


(2) (口感 = 圆润 ) 且 (颜色 = 红色 ) 且 (颜色 = 全 金 ) 且 (口感 = 轻重 ) L ( 余 韵 = 苦 
味 ) >J 


粗略 地 将 上 文 翻译 成 自然 语言 ， 则 J 组 的 威士忌 的 特征 为 以 下 两 者 之 一 : 
(1) HREH, Hr SAAS 
(2) 颜色 为 全 金 EPELE), HRE (APR), FATEH 


这 样 的 描述 是 否 比 上 文中 Lapointe 和 Legendre 提供 的 描述 更 好 呢 ? 这 要 看 你 喜欢 哪 种 ， 但 
你 要 知道 ， 这 两 种 描述 类 型 不 同 。Lapointe 和 Legendre 的 描述 是 特性 描述 ， 描 述 的 是 得 的 
典型 特征 ， 而 不 管 其 他 徐 是 否 也 有 同样 的 特征 ， 决 策 树 生 成 的 描述 是 差异 描述 ， 只 描述 该 

复 与 其 他 复 不 同 的 特征 ， 而 忽略 复 内 成 员 共 有 的 特征 。 换 名 话说 ， 特 性 描述 关注 的 是 组 内 
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共性 ， 而 差异 描述 则 关注 的 是 组 间 差 异 。 两 种 方式 没有 哪个 绝对 更 好 ， 有 具体 要 取决 于 你 能 
使 用 目的 。 


6.5 退 一 步 : 解决 业务 问题 与 数据 探索 


在 看 过 许多 将 数据 科学 的 基本 概念 付 诸 实践 的 示例 后 ， 你 可 能 已 经 明白 ， 即 使 目标 相似 ， 
聚 类 问题 与 预测 建 模 问题 也 或 多 或 少 存在 着 不 同 。 我 们 来 探索 一 下 其 中 的 原因 。 


在 预测 建 模 示例 和 直接 运用 相似 性 的 示例 中 ， 所 关注 的 都 是 解决 特定 的 商业 问题 。 前 文 曾 
强调 过 ， 数 据 科 学 的 基本 理念 之 一 就 是 要 尽 可 能 精确 地 定义 数据 挖掘 任务 的 目标 。 还 记 
得 CRISP 数据 挖掘 流程 吗 ? 图 6-15 再 次 展示 了 它 的 流程 图 。 在 商业 理解 /数据 理解 的 小 
循环 中 ， 我 们 应 该 用 尽 可 能 多 的 时 间 来 给 需要 解决 的 问题 下 具体 而 准确 的 定义 。 在 预测 建 
模 的 应 用 中 ， 我 们 需要 具体 地 定义 目标 变量 ， 而 在 第 7 章 我 们 会 了 解 到 ， 随 着 对 数据 科学 
理解 的 加 深 ， 对 问题 的 定义 也 会 愈 发 具体 。 在 相似 性 匹配 示例 中 ， 同 样 有 对 目标 的 具体 描 
述 一 一 找到 相似 企业 来 使 工作 的 结果 最 优 ， 因 而 我 们 需要 具体 定义 “相似 ”的 含义 。 如 有 果 
想 找到 相似 的 威士忌 ， 尤 其 是 味道 相似 的 威士忌 ， 那 么 我 们 仍 需要 收集 数据 和 表示 数据 以 
便于 精确 地 找到 它们 。 后 文 将 探讨 如 何 运用 数据 科学 的 框架 ， 将 商业 问题 分 解 为 多 个 定义 
明确 的 部 分 ， 然 后 运用 数据 科学 方法 来 一 一 解决 。 
























































图 6-15: CRISP 数据 挖掘 流程 
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然而 ， 并 非 所 有 问题 都 如 此 定义 明确 。 如 果 在 业务 理解 环节 得 出 如 “我 们 虽然 不 太 确 定 需 
要 解决 的 问题 ， 但 仍 希 望 探索 一 下 数据 ”这 样 的 结论 ， 该 怎么 做 ? 需要 应 用 聚 类 方法 解决 
的 问题 往往 属于 此 类 。 此 时 要 运用 无 监督 分 类 ， 找 到 “天 然 ” 存 在 的 分 组 (当然 ， 这 依赖 
于 相似 性 测度 的 定义 )。 


为 便于 讨论 ， 我 们 先 将 问题 简化 : 分 为 有 监督 部 分 (如 预测 建 模 ) 和 无 监督 部 分 〈 如 聚 
类 )。 当 然 数 据 科学 领域 并 非 那么 有 呆板 ， 之 前 介绍 过 的 数据 挖掘 技术 几乎 都 能 用 于 数据 控 
索 。 但 如 果 简 要 把 问题 划分 成 有 监督 和 无 监督 两 部 分 ， 对 问题 的 探讨 就 会 更 加 清晰 。 在 数 
据 挖 气流 程 中 ， 我 们 需要 权衡 在 哪个 环节 、 以 何 种 方式 投入 精力 。 对 有 监督 问题 而 言 ， 由 
于 已 经 花 了 很 大 功夫 具体 定义 问题 ， 因 而 到 了 数据 挖掘 流程 中 的 评估 环节 ， 我 们 就 已 经 有 
了 清晰 的 评估 指标 一 一 建 模 结果 是 否 能 够 解决 所 定义 的 问题 。 举 个 例子 ， 如 果 已 经 确定 ， 
目标 是 改善 在 合约 即将 到 期 时 用 户 的 流失 情况 ， 那 么 我 们 就 可 以 评估 模型 是 否 满足 了 这 个 
要 求 。 

与 之 相 比 ， 无 监督 问题 往往 更 具 探 索性 。 我 们 可 能 意识 到 ， 如 果 能 对 企业 、 新 闻 报道 或 威 
土 忌 聚 类 的 话 ， 就 能 更 加 了 解 我 们 的 任务 ， 从 而 能 够 对 某 些 方面 做 出 改进 。 然 而 ， 我 们 可 
能 没有 目标 的 具体 公式 。 如 有 果 要 求 过 于 具体 和 准确 ， 就 有 可 能 发 现 不 了 数据 中 的 重点 。 但 
这 两 者 需要 权衡 ， 即 如 有 果 在 数据 挖 气流 程 前 期 疫 有 对 问题 做 出 具体 定义 ， 那 么 在 后 期 的 评 
佑 环节 就 需要 花 更 多 时 间 。 


特别 是 对 于 聚 类 问题 而 言 ， 理 解 其 结果 所 揭示 的 信息 〈 如 果 存 在 ) 往往 很 困难 。 即 使 聚 类 
结果 似乎 揭露 了 有 趣 的 信息 ， 我 们 也 经 常 不 清楚 如 何 用 该 结果 来 优化 决策 。 因 此 ， 我 们 必 
须 把 额外 的 创造 力 和 商业 知识 运用 到 聚 类 问题 的 数据 挖掘 的 评估 环节 中 来 。 


Ira Haimowitz 和 Henry Schwartz (1997) 对 新 的 信贷 客户 设置 信用 额度 的 示例 展示 了 如 
何 用 聚 类 辅助 决策 。 他 们 基于 信用 卡 数目 、 账 单 偿还 情况 和 给 公司 产生 的 利 洞 ， 对 GE 
Capital 的 现存 客户 进行 了 聚 类 。 最 终 他 们 确定 了 5 个 徐 ， 代 表 了 5 种 非常 不 同 的 客户 信 
贷 行 为 〈 比 如 ， 同 样 消费 很 多 ， 有 的 人 每 月 都 能 如 数 还 清 ， 而 有 的 人 账户 余额 却 一 直接 近 
信贷 限额 )。 这 些 不 同 的 客户 所 适用 的 信贷 额度 也 大 不 相同 (上 文中 的 两 种 人 里 ， 我 们 更 
需要 关注 后 者 ， 以 防 其 出 现 信贷 违约 )。 但 直接 将 聚 类 用 于 该 决策 的 问题 是 ， 这 些 数 据 在 
起 初 设置 信用 额度 时 无 法 获得 。 因 此 ， 简 而 言 之 ，Haimowitz 和 Schwartz 在 获取 这 些 新 信 
息 后 ， 又 重新 开始 了 整个 数据 挖掘 流程 。 它 们 用 这 些 新 信息 定义 了 一 个 精确 的 预测 建 模 问 
题 ， 用 信贷 审批 时 可 获取 的 数据 预测 客户 对 每 个 徐 的 归属 概率 。 接 下 来 ， 这 个 预测 模型 可 
以 用 于 改进 初次 信用 额度 设置 的 决策 。 


6.6 ”小结 


数据 项 之 间 相 似 性 的 概念 贯穿 于 整个 数据 挖 据 。 本 章 首先 讨论 了 相似 性 的 广泛 应 用 ， 从 基 
于 数据 描述 寻找 相似 个 体 (或 对 象 )， 到 预测 建 模 ， 再 到 聚 类 。 本 章 探讨 了 这 些 用 途 ， 并 
用 一 些 示 例 来 进行 了 说 明 。 

两 个 个 体 之 间 相 似 性 的 一 个 常用 的 替代 指标 是 ， 两 者 在 由 特征 向 量 定义 的 实例 空间 中 的 距 
离 。 本 章 对 相似 性 的 计算 方式 和 距离 的 计算 方式 分 别 做 了 一 般 性 介绍 和 技术 细节 讲解 。 另 
外 ， 本 章 还 介绍 了 最 近邻 方法 ， 即 通过 计算 新 数据 和 一 些 训练 数据 〈 目 标 变量 值 已 知 ) 的 
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相似 性 来 进行 预测 工作 的 方法 。 在 获取 一 系列 最 近邻 〈 即 最 相似 的 实例 ) 后 ， 我 们 就 能 
它们 来 解决 许多 数据 挖掘 问题 ， 如 分 类 、 回 归 、 实 例 评 分 等 。 最 后 ， 本 章 揭示 了 相似 性 这 
一 基本 概念 同样 也 是 无 监督 数据 挖掘 最 常用 的 方法 一 一 聚 类 一 一 的 基础 。 


本 章 还 探讨 了 另 一 个 重要 概念 ， 它 可 以 用 在 探索 性 更 强 的 数据 分 析 方 法 中 。 在 探索 数据 
时 ， 尤 其 在 使 用 无 监督 方法 的 情况 下 ， 我 们 往往 会 在 数据 挖掘 流程 的 业务 理解 环 闻 人 花 较 少 
的 时 间 ， 而 在 评估 环节 和 迭代 该 循环 的 过 程 上 花 较 多 的 时 间 。 为 了 方便 说 明 ， 本 章 探讨 了 
理解 聚 类 结果 的 多 种 方法 。 
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第 7 章 
决策 分 析 思 维 (一 ) : 
如 何 评估 一 个 模型 





基本 概念 : 仔细 思考 希望 从 数据 挖 握 的 结果 中 获得 什么 ; 期 望 值 : 一 个 关键 的 评 
估 框 架 ; 思考 什么 是 恰当 的 对 比 基 线 


示例 方法 : 各 种 评估 指标 ; 成 本 收益 估计 ; 期 望 利 润 的 计算 ; 创建 比较 基线 的 方法 


请 回想 一 下 第 5 章 的 开头 : 作为 MegaTelCo 的 一 名 经 理 ， 你 想 评估 本 公司 的 模型 是 否 真 的 
是 一 个 “好 ”模型 。 除 了 过 拟 合 之 外 ， 你 还 应 做 何 种 度量 呢 ? 


为 了 让 数据 科学 给 实际 应 用 增加 价值 ， 数 据 科 学 家 和 其 他 利益 相关 者 必须 仔细 地 芳 虑 他 1 
究竟 希望 通过 挖掘 数据 实现 什么 。 虽 然 这 点 听 起 来 像 是 老生 常 谈 ， 但 令 人 惊讶 的 是 ， 它 引 
常 被 忽略 。 数 据 科学 家 及 他 们 的 合作 者 会 经 常 回避 一 一 也 许 他 们 其 至 都 没有 意识 到 一 一 
数据 挖 据 的 结果 与 他 们 的 实际 目标 联系 起 来 。 其 影响 既 可 能 表现 为 统计 报告 中 缺少 对 统 i 
数据 正确 性 的 明确 解释 ， 也 可 能 表现 为 不 能 找 出 有 意义 的 方法 来 测量 性 能 。 

但 是 ， 我 们 也 应 谨慎 地 对 待 这 类 批评 。 直 接 测 量 最 终 目 标 通 常 是 非常 困难 的 ， 原 因 可 能 
是 系统 存在 缺陷 ， 收 集 高 质量 数据 的 成 本 太 高 ， 或 者 评估 数据 与 目标 变量 之 间 的 因果 关 
系 很 困难 。 因 此 ， 我 们 需要 测量 一 些 有 用 的 替代 变量 。 尽 管 如 此 ， 至 关 重 要 的 仍然 是 要 
考虑 清楚 究竟 要 测量 什么 。 即 使 必须 选择 蔡 代 变量 ， 也 要 通过 严谨 的 数据 分 析 来 实现 。 
本 章 面 临 的 最 大 挑战 是 ， 每 个 应 用 场景 都 是 不 同 的 ， 我 们 无 法 为 分 类 问题 、 回 归 问 题 或 者 
可 能 遇 到 的 其 他 任何 问题 提供 单一 旦 “正确 ”的 评估 指标 。 尽 管 如 此 ， 在 对 模型 进行 评估 
的 过 程 中 存在 很 多 共同 的 主题 和 和 争论 点 ， 而 对 于 解决 这 些 问 题 ， 也 存在 一 些 共同 的 技术 和 


框架 。 
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本 书 将 逐一 讨论 关于 分 类 (在 本 章 中 )、 实 例 评分 (例如 ， 根 据 消费 者 响应 的 可 能 性 对 消 
费 者 进行 排序 ) 和 类 概率 估计 (在 下 一 章 中 ) 等 任务 的 一 些 评估 框架 和 度量 指标 。 每 一 项 
具体 的 技术 都 应 该 被 看 作对 应 用 场景 中 不 同 需 求 进行 深入 思考 的 示例 。 垃 运 的 是 ， 这 些 技 
术 的 适用 范围 的 确 很 广 。 同 时 ， 本 章 也 会 给 出 一 个 通用 的 框架 ,用 于 模型 评估 和 期 望 值 计 
算 ， 而 这 个 框架 可 以 涵盖 各 种 各 样 的 应 用 场景 。 正 如 将 在 后 面 的 章节 中 展示 的 那样 ， 它 也 
可 以 作为 数据 分 析 式 思维 的 体系 化 工具 ， 用 来 指导 问题 的 标准 化 。 


7.1 对 分 类 器 的 评估 

分 类 模型 是 一 个 用 来 预测 类 别 未 知 的 实例 的 模型 。 现 在 ， 试 想 一 个 二 分 类 模型 ， 其 中 的 类 
别 值 按 惯常 方法 简称 为 “ 正 ”( 样 本 ) 和 “ 负 ”( 样 本 )。 对 于 这 种 模型 ， 应 如 何 评估 其 性 
能 呢 ? 第 $ 章 讨论 了 一 种 评估 方法 ， 即 将 数据 集 二 分 为 训练 集 和 测试 集 来 评估 模型 的 泛 化 
能 力 。 但 是 具体 应 该 如 何 操作 呢 ? 






























































坏 的 正 样 本 与 无 害 的 负 样 本 
在 讨论 分 类 器 时 ， 我 们 经 常 将 产生 负面 效果 的 样本 看 作 “ 正 ”的 ,而 将 正常 或 好 的 样 
本 看 作 “ 仙 ”的 。 鉴 于 对 “ 正 ” 和 “ 仙 ” 的 日 常 定义 ,这样 的 表述 对 你 来 说 可 能 会 很 
奇怪 。 例 如 : 为 什么 欺诈 事件 被 认为 是 正 的 ， 而 正常 事件 被 认为 是 负 的 ? 事实 上 ， 这 
样 的 措辞 在 许多 专业 领域 都 很 常见 ， 包 括 机 器 学 习 领域 和 数据 挖 据 领域 ， 在 本 书 中 也 
会 这 样 使 用 。 下 面 的 解释 或 许 能 帮助 你 更 好 地 理解 这 个 问题 。 


通常 ， 我 们 用 正 向 结果 代表 值得 关注 或 警惕 的 事情 ， 而 将 负 向 结果 看 作 不 值得 关注 的 
事情 或 良性 事件 。 例 如 ， 检测 生物 样本 的 医学 测试 (一 种 分 类 器 ) ， 通 过 检测 样本 的 某 
些 方面 来 判断 是 否 有 疾病 。 如 果 检 测 结果 为 阳性 (也 就 是 正 向 )， 则 表示 存在 异常 状 
况 ; 如 果 检 测 结果 为 阴性 〈 也 就 是 负 向 ) ， 则 表示 并 没有 什么 值得 警惕 的 因素 ， 通 常 不 
需要 治疗 。 同 样 ， 如 果 欺 诈 检 测 模型 检测 到 用 户 账户 的 异常 活动 ， 并 引发 风险 预警 ， 
则 称 为 正 向 反馈 。 虽 然 负 向 反馈 (只 出 现 合 法 活动 的 账户 ) 或 许 是 好 的 事情 ,但 从 其 
诈 检 测 的 角度 来 看 ， 它 们 并 不 值得 关注 。 


其 实 保持 这 种 惯用 的 规则 往往 是 很 有 意义 的 ， 因 为 我 们 不 必 在 引入 每 个 领域 的 时 候 ， 
重新 定义 “ 正 ” 和 “ 负 ” 的 含义 。 你 可 以 将 分 类 器 看 作 一 个 通过 筛选 一 个 主要 由 (不 
值得 关注 的 ) 负 样 本 构成 的 总 体 来 寻找 少数 正 样本 的 工具 。 按 照 惯例 ， 正 样本 通常 都 
占 少 数 ， 至 少 比 负 样 本 要 少 。 因 此 ， 尽 管 对 负 样 本 判断 错误 ( 假 阳性 错误 ) 的 情况 可 
能 更 多 ， 然 而 对 每 个 正 样本 判断 错误 ( 假 了 明 性 错误 ) 的 成 本 会 更 高 。 














7.1.1 简单 准确 率 的 问题 

到 目前 为 止 ,本 书 一 直 假 设 可 以 使 用 一 些 简 单 的 度量 标准 ， 比 如 分 类 器 的 错误 率 或 准确 
率 ， 来 衡量 模型 的 性 能 。 

分 类 准确 率 是 一 个 常用 的 指标 ， 因 为 它 很 容易 测量 。 但 是 很 遗憾 ， 它 对 于 数据 挖掘 技术 在 
实际 业务 问题 中 的 应 用 来 说 ， 还 是 过 于 简单 了 。 本 章 将 仔细 讨论 分 类 准确 率 这 个 指标 ， 以 
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及 它 的 一 些 替 代 指 标 。 


术语 “分 类 器 准确 率 "， 在 非 正 式 的 情况 下 ， 可 以 指 对 广义 上 任何 一 种 分 类 器 的 性 能 的 测 
量 。 在 这 里 ， 对 于 准确 率 一 词 ， 本 书 取 其 技术 上 的 特定 含义 ， 即 正确 决策 所 占 比 例 ， 即 : 


正确 决策 数 

决策 总 数 

其 也 等 于 1- 错误 率 。 准 确 率 是 一 项 在 数据 挖掘 研究 中 很 常见 的 评估 指标 ， 因 为 它 可 以 用 单 
一 的 数字 来 评估 分 类 器 性 能 ， 而 且 很 容易 测量 。 但 是 ， 它 过 于 简单 ， 且 会 导致 一 些 很 常见 
的 问题 (Provost, Fawcett & Kohavi, 1998), 。 为 了 理解 这 些 问 题 ， 需 要 一 种 方法 来 分 解 和 计 
算 分 类 器 导致 的 不 同类 型 的 决策 错误 。 为 此 本 章 引入 “混淆 和 矩阵”。 


7.1.2 混淆 矩阵 

想 要 正确 地 评估 分 类 器 ， 理 解 类 混淆 和 混淆 矩阵 这 两 个 概念 是 非常 重要 的 ， 其 中 后 者 是 一 
种 列 联 表 。 涉 及 n 类 问题 的 混 清 矩阵 是 一 个 nxn 算 阵 ， 和 矩阵 的 每 一 列表 示 对 应 样本 的 真 
实 类 别 ， 而 每 一 行 表示 预测 类 别 。 测 试 集 中 的 每 个 实例 都 有 一 个 真实 的 类 别 和 一 个 分 类 器 
预测 的 类 别 ( 预 测 类 )， 它 们 的 组 合 构 成 了 和 矩阵 的 各 个 单元 。 简 单 起 见 ， 本 章 仅 讨论 一 个 
二 分 类 问题 的 2 x 2 的 混淆 矩阵 。 

混 消 矩阵 可 以 将 分 类 器 做 出 的 决策 区 分 开 ， 明 确 地 展示 出 一 个 类 别 是 如 何 与 另 一 个 类 别 混 
消 的 。 通 过 这 样 的 方式 ， 我 们 可 以 单独 处 理 不 同类 型 的 错误 。 首 先 ， 要 用 不 同 的 符号 来 
区 分 真实 的 类 和 模型 预测 的 类 。 在 这 里 ， 我 们 会 考虑 二 分 类 问题 ， 将 真实 的 类 别 表 示 为 p 
(positive， 正 向 ) 和 n (negative， 负 向 )， 将 模型 预测 的 类 (“预测 ”类 ) 表示 为 Y (Yes, 
Æ) 和 N (No, A) (就 好 像 模 型 在 说 “是 的 ， 它 是 正 向 的 ”或 “不 ， 它 不 是 正 向 的 ”)。 
在 如 表 7-1 所 示 的 混淆 矩阵 中 ， 主 对 角 线 上 的 单元 包含 正确 的 预测 。 而 分 类 器 中 错误 的 预 
测 是 假 正 (被 分 类 器 预测 为 正 的 负 样 本 ) 和 假 负 (被 分 类 器 预测 为 负 的 正 样本 )。 


表 7-1: 一 个 2x2 的 混淆 矩阵 ， 它 显示 了 模型 正确 的 预测 
(EWA) 和 错误 的 预测 (次 对 角 线 ) 
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p n 
Y 真正 假 正 
N 假 负 真 负 


7.1.3 样本 类 别 不 均衡 的 问题 

举 一 个 例子 来 说 明 我 们 需要 仔细 考虑 模型 评估 。 在 分 类 问题 中 ， 其 中 一 个 类 的 样本 量 非 常 
小 ， 这 在 实际 应 用 场景 中 是 很 常见 的 ， 因 为 分 类 器 通常 被 用 于 筛选 大 量 正常 的 、 不 值得 关 
注 的 样本 ， 以 寻找 相对 少量 的 异常 样本 。 比 如 ， 寻 找 遭 受 坎 诈 的 用 户 ， 检 查 装 配 线 上 是 否 
存在 缺陷 部 件 ， 或 检测 目标 消费 者 实际 是 否 会 对 营销 活动 做 出 响应 。 因 为 异常 的 、 值 得 关 
注 的 样本 在 总 体 中 所 占 数量 通常 是 很 少 的 ， 所 以 我 们 往往 会 遇 到 样本 分 布 不 均衡 或 分 布 偏 余 
的 情况 (Ezawa, Singh & Norton, 1996; Fawcett & Provost, 1996; Japkowicz & Stephen, 2002 ) 。 
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不 幸 的 是 ， 随 着 样本 偏 度 〈 样 本 类 别 分 布 不 均衡 的 程度 ) 的 增加 ， 基 于 准确 率 的 评估 方法 
就 会 逐渐 失效 。 如 果 一 个 样本 总 体 中 的 类 以 999 : 1 的 比例 出 现 ， 那 么 只 要 遵循 一 个 简单 的 
规则 一 一 总 是 选择 数量 多 的 类 别 就 可 以 获得 99.9% 的 准确 率 。 但 是 如 果 要 寻求 非 平 几 
的 解决 方案 ， 那 么 这 种 方法 的 效果 可 能 并 不 令 人 满意 。 在 欺诈 检测 中 ， 正 负 样本 1 : 100 的 
比例 是 很 常见 的 ， 而 在 其 他 应 用 场景 中 ， 有 的 样本 偏 度 甚至 超过 了 1:106 (Clearwater & 
Stern, 1991; Attenberg & Provost, 2010)。 第 5 章 提 到 了 类 的 “基础 比率 ”这 个 概念 ， 它 表 
示 当 分 类 模型 将 全 部 实例 预测 为 某 一 类 时 ， 这 个 模型 的 性 能 如 何 。 对 于 这 种 偏 度 很 高 的 样 
本 总 体 而 言 ， 占 主导 地 位 的 那 一 类 的 基础 比率 可 能 会 非常 高 ， 因 此 在 准确 率 为 99.9% 的 情 
况 下 ， 这 个 指标 可 能 无 法 告诉 我 们 数据 挖掘 真正 实现 了 什么 。 
即使 当 样 本 偏 度 不 是 那么 大 时 ， 如 果 样 本 总 体 中 一 个 类 别 比 另 一 个 类 别 更 占 主导 地 位 ， 那 
么 准确 率 也 容易 变 得 不 准确 。 请 再 次 回 到 手机 用 户 流 失 的 那个 示例 。 假 设 你 是 MegaTelCo 
的 经 理 ， 而 我 这 个 分 析 师 告诉 你 用 户 流失 预测 模型 的 准确 率 是 80%。 这 上 听 起 来 很 不 错 ， 但 
果真 如 此 吗 ? 我 的 同事 说 她 的 模型 准确 率 只 有 64%。 这 似乎 很 粳米， 其 实 是 这 样 吗 ? 
你 可 能 会 说 : 等 等 ， 我们 还 需要 更 多 信息 。 你 这 样 做 是 完全 正确 的 (并 且 这 意味 着 你 已 经 
进入 了 数据 分 析 的 思维 模式 )。 那 么 还 需要 什么 呢 ? 考虑 到 本 节 人 迄今 为 止 所 讨论 的 内 容 ， 
你 可 能 会 很 确定 地 说 : 需要 知道 总 体 中 流失 用 户 的 比例 是 多 少 。 假 设 用 户 流失 的 基础 比率 
约 为 每 月 10%， 因 此 如 果 把 流失 用 户 看 作 正 样本 ， 那 么 在 客户 群 中 ， 预 期 的 正 负 样本 比例 
为 1 : 9。 因 此 ， 只 要 把 所 有 的 用 户 都 看 作 正 常用 户 ( 负 样 本 )， 就 可 以 实现 90% 的 准确 率 | 
随 着 挖掘 工作 的 深入 ， 你 又 发 现 我 的 同事 和 我 其 实 是 在 两 个 数据 集 上 进行 了 评估 。 这 一 点 
也 不 奇怪 ， 如 果 没 有 事先 协调 好 数据 分 析 工 作 的 话 ， 就 会 出 现 这 样 的 情况 。 我 的 同事 从 
样本 总 体 中 提取 代表 性 样本 来 计算 准确 率 (保留 了 原始 样本 的 分 布 )， 而 我 则 是 创建 了 用 
于 训练 和 测试 的 人 工 平衡 数据 集 (两 种 都 是 常见 做 法 )。 现 在 我 同事 的 模型 看 起 来 非常 精 
Ke 她 应 该 可 以 达到 90% 的 准确 率 ， 却 只 有 64%。 然 而 当 将 她 的 模型 在 我 的 平衡 数据 
集 上 检验 的 时 候 ， 却 得 到 了 80% 的 准确 率 。 这 真 邻 人 困惑 。 
最 重要 的 是 ， 准 确 率 这 个 指标 其 实 存在 局 限 性 。 在 这 个 编造 的 示例 中 ， 我 同事 的 模型 〈 模 
AY A) 正确 识别 出 了 所 有 的 正 样本 ， 但 只 找到 60% 的 负 样本 ， 最 后 在 平衡 数据 集 上 总 体 达 
到 了 80% 的 准确 率 。 相 反 ， 我 的 模型 (模型 B) 正确 识别 出 了 所 有 的 负 样本 ， 但 只 识别 出 
60% 的 正 样本 。 
让 我 们 使 用 混淆 矩阵 来 更 仔细 地 研究 一 下 这 两 个 模型 。 这 是 一 个 有 1000 名 用 户 的 训练 总 
体 ， 它 的 混淆 矩阵 的 分 布 如 表 7-2 和 表 7-3 所 示 (模型 的 预测 类 别 分 别 表示 为 Y FIN). 
表 7-2: 混淆 矩阵 A 

流失 用 户 BAMA 
Y 500 200 
N 0 300 


表 7-3: 混 满 矩阵 B 


流失 用 户 SAAR 
Y 300 0 
N 200 500 
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图 7-1 展示 了 两 个 模型 在 平衡 样本 中 和 代表 性 样本 中 的 分 类 预测 情况 。 正 如 前 面 所 提 到 的 ， 
两 个 模型 都 对 80% 的 平衡 样本 进行 了 正确 分 类 ， 但 是 ， 混 靖 矩 阵 的 结果 表明 它们 的 分 类 方 
式 是 非常 不 同 的 。 分 类 器 A 经 常 错 把 续 约 用 户 预测 为 流失 用 户 ， 而 分 类 器 B 会 犯 相反 的 错 
误 ， 把 流失 用 户 预 测 为 续 约 用 户 。 而 把 两 个 模型 放 在 代表 性 样本 (保留 原始 样本 分 布 ) 上 
进行 测试 时 ， 模 型 A 的 准确 率 下 降 到 64%， 模 型 B 则 上 升 到 了 96%。 这 是 一 个 很 显著 的 
变化 。 那 么 究竟 哪个 模型 更 好 呢 ? 











均衡 总 体 A 的 分 类 B 的 分 类 


50% 


90% 














图 7-1: 一 个 说 明 准 确 率 具有 误导 性 的 例子 。 上 面 两 个 流失 预测 模型 ， 模 型 A 和 模型 B， 在 平衡 数据 
集中 ,产生 相同 数量 的 错误 (阴影 区 ) ， 但 其 错误 类 型 不 同 。 因 此 ， 当 样本 比例 发 生变 化 时 
它们 各 自 的 性 能 也 会 发 生 很 大 变化 





我 的 模型 (模型 B) 现在 看 起 来 似乎 比 模型 A 更 好 ， 因 为 模型 B 在 受 关注 的 总 体 中 有 更 好 
的 性 能 (流失 用 户 与 续 约 用 户 比 例 为 1 : 9)。 但 是 ， 我 们 仍然 不 能 下 结论 ， 因 为 准确 率 这 
个 指标 还 存在 一 个 问题 ， 不 知道 如 何 度量 这 些 不 同 的 错误 及 正确 决策 对 我 们 的 重要 性 。 这 
个 问题 将 在 下 一 市 讨 论 。 


7.1.4 成 本 收益 不 均衡 的 问题 

用 分 类 准确 率 作 为 度量 指标 的 另外 一 个 问题 是 ， 它 不 区 分 假 阳 性 错误 和 假 阴性 错误 ， 而 默 
认 这 两 个 错误 同样 重要 。 而 这 通常 并 不 适用 于 真实 的 应 用 场景 。 不 同类 型 的 错误 会 产生 不 
同 的 成 本 ， 因 为 不 同 分 类 方法 造成 的 后 果 的 严重 程度 不 同 。 
比如 在 医疗 诊断 场景 中 ， 一 个 没有 得 癌症 的 人 被 诊断 为 癌症 患者 ， 就 是 一 个 假 阳 性 错误 。 
结果 可 能 是 患者 将 接受 进一步 的 检查 ， 最 终 发 现 癌症 的 初步 诊断 错误 。 尽 管 这 个 错误 让 患 
者 承受 了 压力 和 巨额 花费 ， 且 造成 了 很 多 麻烦 ， 但 它 不 会 危及 生命 。 比 较 一 下 相反 的 情 
Ub: 错误 地 告诉 一 个 癌症 患者 没有 得 癌症 ， 这 是 假 阴 性 错误 。 这 类 错误 意味 着 患 有 癌症 的 
人 会 错过 早期 检测 ， 这 可 能 会 产生 非常 严重 的 后 果 。 如 此 看 来 ， 这 两 类 错误 造成 的 后 果 其 
实 非常 不 同 ， 我 们 应 该 分 开 计 算 ， 而 它们 的 成 本 也 应 该 不 同 。 

回 到 手机 用 户 流失 的 示例 中 ， 情 况 则 是 尽管 给 了 某 用 户 一 些 用 于 促使 其 续 约 的 优惠 ， 然 
而 他 还 是 流失 了 〈 假 阳性 错误 )。 与 之 相对 的 是 ， 因 为 没有 给 某 用 户 优惠 ， 所 以 他 流失 了 
( 假 阴 性 错误 )。 无 论 你 决定 为 每 种 错误 花费 怎样 的 成 本 ， 它 们 都 是 不 一 样 的 ， 而 不 管 怎 
样 ， 这 些 错误 都 应 该 被 分 别 计算 。 

实际 情况 中 ， 很 难 想象 一 个 决策 者 可 以 对 其 是 犯 了 假 阳 性 错误 还 是 假 阴 性 错误 漠不关心 。 
理想 情况 下 ， 我 们 应 该 仔细 评估 分 类 器 所 做 的 每 个 决策 的 成 本 或 收益 。 它 们 合 起 来 ， 即 期 
望 利润 或 期 望 成 本 或 期 望 收益 ) 。 


siz, * H ay 
7.2 分 类 问题 的 推广 
我 们 一 直 在 使 用 分 类 建 模 讨 论 许多 具体 的 数据 科学 问题 ， 这 些 问题 大 部 分 不 仅仅 适用 于 分 
类 问题 的 范畴 。 
总 体 原则 是 ， 在 将 数据 科学 投入 到 实际 应 用 时 ， 至 关 重要 的 是 把 关注 点 放 到 问题 本 身 : 在 
应 用 场景 中 什么 是 重要 的 ? 目标 是 什么 ?是 否 能 根据 实际 目标 来 评估 数据 挖掘 的 结果 ? 


这 里 举 另 外 一 个 例子 。 请 把 上 述 思想 应 用 到 回归 模型 而 不 是 分 类 模型 中 去 。 假 如 我 们 的 数 
据 科学 团队 计划 构建 一 个 电影 推荐 模型 。 它 可 以 预测 某 给 定 用 户 对 特定 电影 的 喜爱 程度 ， 
从 而 给 用 户 提供 个 性 化 的 推荐 。 比 如 每 个 用 户 通过 给 出 一 到 五 星 的 分 数 来 给 电影 评级 ， 而 
推荐 模型 可 以 据 此 预测 出 用 户 对 他 们 尚未 观看 的 电影 的 评分 。 其 中 一 位 分 析 师 在 评估 模型 
的 时 候 ， 使 用 了 模型 的 均 方 误差 (或 均 方 根 误差 ， 或 R?， 或 其 他 指标 )。 我 们 或 许 就 会 问 : 
什么 的 均 方 误差 ? 分 析 师 回复 : 目标 变量 值 的 ， 就 是 用 户 给 电影 评 的 星 数 。 为 什么 预测 结 
果 的 均 方 误差 适合 评估 该 推荐 模型 ? 这 个 指标 有 意义 吗 ? 有 没有 更 好 的 指标 ? 真希 望 分 析 
师 们 仔细 考虑 过 这 些 问 题 ， 但 是 通常 情况 下 ， 你 会 发 现 他 们 并 没有 ， 而 只 是 在 照搬 他 们 从 
学 校 课程 中 学 到 的 方法 。 
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7.3 一 个 重要 的 分 析 框 架 : 期 望 值 


现在 我 们 准备 讨论 数据 分 析 思 维 中 一 个 辅助 性 的 通用 指标 : 期 望 值 。 期 望 值 的 计算 过 程 提 
供 了 一 个 框架 ， 而 该 框架 对 于 如 何 思 考 数据 分 析 问 题 非常 有 用 。 有 具体 地 说 ， 它 将 数据 分 析 
思维 分 解 为 三 个 部 分 : 问题 的 结构 、 可 从 数据 中 提取 的 分 析 要 素 和 需要 从 其 他 来 源 获取 的 
PRES (例如 商业 知识 和 专业 领域 的 知识 ) 。 

在 计算 期 望 值 的 时 候 ， 某 种 情况 下 的 各 种 可 能 结果 首先 被 列举 出 来 。 而 期 望 值 就 是 不 同 结果 
的 加 权 平均 值 ， 其 中 给 予 每 个 结果 的 权重 则 是 它 发 生 的 概率 。 例 如 ， 如 果 不 同 的 结果 代表 了 
不 同 的 利润 水 平 ， 那 么 在 计算 期 望 利润 的 时 候 ， 可 能 性 高 的 利润 水 平 会 被 赋予 较 高 的 权重 ， 
而 可 能 性 低 的 利润 水 平 则 被 赋予 较 低 的 权重 。 在 本 书 中 ， 我 们 假设 所 要 考虑 的 都 是 重复 任务 
(比如 针对 大 量 消费 者 ， 或 诊断 大 量 问 题 ) ， 而 目标 就 是 实现 期 望 利润 的 最 大 化 。， 

期 望 值 框架 为 分 析 师 的 思考 提供 了 一 个 架构 ， 期 望 值 的 计算 见 公式 7-1。 

公式 7-1: 期 望 值 计 算 的 一 般 形 式 


















































EV = p(o,)-V(0,) + p(0,): v(0,) + P(O;)-V(03) +" 


每 个 0; 都 是 一 个 可 能 的 决策 结果 ，p(o)) 是 其 发 生 的 概率 ， 而 vo) 是 其 值 。 概 率 值 通常 可 
以 从 数据 中 获得 ， 但 商业 价值 通常 需要 从 其 他 来 源 获得 。 正 如 第 11 章 将 要 提 到 的 ， 数据 
驱动 的 建 模 可 能 有 助 于 评估 商业 价值 ， 但 这 些 值 通常 必须 从 其 他 领域 获得 。 


我 们 将 在 两 个 数据 科学 场景 中 说 明 期 望 值 作为 分 析 框 架 的 作用 。 这 两 种 情况 事实 上 经 常 被 
混淆 ， 因 此 有 必要 加 以 明确 的 区 分 。 为 此 ， 请 你 回顾 一 下 第 2 章 中 模型 的 挖掘 (或 归纳 ) 
和 模型 的 使 用 之 间 的 差异 。 


7.3.1 用 期 望 值 规范 分 类 器 的 使 用 

使 用 模型 时 ， 在 很 多 情景 下 需要 预测 一 个 类 别 。 例 如 ， 在 目标 市 场 营 销 中 ， 我 们 希望 把 消 
费 者 划分 为 可 能 响应 用 户 和 不 可 能 响应 用 户 ， 然 后 对 可 能 响应 用 户 进行 有 针对 性 的 营销 。 
但 非常 不 幸 的 是 ， 每 个 消费 者 的 响应 概率 可 能 都 非常 低 可 能 仅 有 一 两 个 百分点 因 
此 没有 一 个 消费 者 看 起 来 像 可 能 响应 用 户 。 如 果 按 照 “ 常 识 ” 中 的 国 值 50% 来 划分 用 户 ， 
那么 我 们 可 能 找 不 到 任何 目标 。 而 许多 缺乏 经 验 的 数据 工作 者 在 发 现 有 的 模型 把 每 个 人 都 
归 为 不 可 能 响应 用 户 时 ， 或 许 会 大 感 意外 。 

然而 ,期望 值 框架 可 以 帮助 我 们 看 到 问题 的 症结 所 在 。 继 续 思 考 目标 市 场 营销 的 示例 。?* 我 
们 计划 为 一 种 产品 设计 一 种 促销 活动 ， 为 了 简单 起 见 ， 这 种 产品 只 能 通过 该 项 促销 活动 获 
得 。 如 果 没 有 为 某 个 消费 者 提供 促销 活动 ， 那 么 该 消费 者 也 不 会 购买 该 产品 。 从 历史 数据 
中 可 得 出 一 个 模型 ， 它 给 出 了 任意 一 个 消费 者 (特征 向 量 x) 对 上 述 促销 活动 响应 的 概率 

































































































































































TE 1: 决策 理论 课程 会 将 带 你 进入 一 系列 有 趣 的 相关 问题 。 

注 2: 在 这 里 之 所 以 使 用 目标 市 场 营销 ， 而 非 用 户 流 失 的 例子 ， 是 因为 我 们 还 没有 能 力 处 理 期 望 值 框架 在 用 
户 流失 示例 中 所 引出 的 复杂 性 问题 。 在 第 11 章 中 ， 我 们 会 做 好 准备 ， 那 时 候 再 来 讲解 如 何 处 理 这 个 
问题 。 
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估计 pr(x)。 这 个 模型 可 以 是 分 类 树 、 逻 辑 回 归 或 其 他 尚未 谈 及 的 模型 。 现 在 请 考虑 一 下 由 
特征 向 量 x 来 描述 的 特定 消费 者 是 否 会 成 为 目标 。 
期 望 值 的 计算 为 分 析 提 供 了 一 个 指导 框架 。 具 体 来 说 ， 我 们 要 计算 面向 消费 者 x 进行 目标 
市 场 营销 的 期 望 收益 (或 成 本 ) : 

目标 市 场 营销 的 期 望 收益 = pr (Ww)vat[1 -pr O] Vyr 
其 中 ， v 是 消费 者 响应 后 我 们 获得 的 价值 ，vwn 是 消费 者 未 响应 时 我 们 获得 的 价值 。 因 为 
每 个 消费 者 要 么 响应 ， 要 么 不 响应 ， 所 以 对 其 不 响应 的 概率 估计 是 1 -px(x)。 正 如 前 面 所 提 
到 的 ， 这 个 概率 值 来 自 于 历史 数据 ， 并 体现 在 预测 模型 中 。 对 收益 ve 和 ww 的 确认 需要 单独 
来 进行 ， 这 是 业务 理解 环节 中 的 一 部 分 (回顾 第 2 章 )。 由 于 假设 消费 者 只 有 响应 促销 活 
动 才 会 购买 产品 ， 所 以 非 目标 市 场 营 销 目标 消费 者 的 期 望 收益 是 0。 
具体 来 说 ,假设 消 费 者 以 200 美元 购买 产品 ， 而 产品 的 相关 成 本 为 100 美元 。 为 了 向 消费 
者 提供 促销 优惠 ， 我 们 也 需要 支付 一 定 的 费用 。 假 设 我 们 邮寄 了 一 些 花 哨 的 宣传 材料 ， 包 
括 邮费 在 内 的 成 本 为 1 美元， 如 果 消 费 者 响应 (购买 产品 )， 则 产生 的 价值 (利润 ) vi 为 
99 美元 。 如 果 消 费 者 没有 上 响应， 那么 wm 的 值 会 是 多 少 呢 ? 我 们 仍然 邮寄 了 宣传 材料 ， 花 
费 了 1 美元， 相当 于 收益 为 -1 美元 。 
现在 ,我们 需要 决定 是 否 要 向 这 个 消费 者 提供 促销 优惠 了 : 我 们 希望 一 利 吗 ?从 技术 上 
讲 ， 精 准 广 告 的 期 望 值 (利润) 是 否 大 于 0 ? 在 数学 上 ， 它 是 这 样 表示 的 : 

PAX)$99-[1 -pr (OJ$1>0 

对 公式 稍 作 变 换 ， 就 会 得 到 一 个 决策 规则 : 仅 当 消费 者 x 满足 以 下 条 件 时 ， 对 其 提供 特 
殊 优惠 。 














































































































Pr (xX)$99 > [1 -pr (Œ)] $1 
Pr (x) > 0.01 
根据 示例 中 的 数值 ， 只 要 估计 的 啊 应 概率 大 于 1%， 我 们 就 应 该 把 消费 者 认定 为 可 能 响应 
用 户 。 
这 体现 了 期 望 值 如 何 指导 我 们 使 用 模型 ， 明 确 这 一 点 有 助 于 组 织 问 题 框 架 和 对 问题 的 分 
析 。 第 11 章 将 再 次 讨论 这 个 问题 。 现 在 ， 本 章 将 继续 讨论 期 望 值 框架 的 另 一 个 重要 应 
用 一 一 分 析 这 个 基于 数据 建立 的 模型 是 否 真 的 好 用 。 


7.3.2 用 期 望 值 规范 分 类 器 的 评估 

此 刻 ， 我 们 希望 把 讨论 的 重点 从 个 例 决 策 转 移 到 集体 决策 上 。 有 具体 来 说 ， 我 们 需要 评估 模型 
在 一 系列 情景 下 做 出 的 一 系列 决策 。 为 了 在 两 个 模型 之 间 进 行 比较 ， 这 种 评估 是 非常 必要 
的 。 例 如 : 该 数据 驱动 模型 是 否 比 营销 团队 所 建议 的 手工 构建 的 模型 性 能 更 好 ? 对 于 特定 
问题 而 言 ， 分 类 树 是 否 比 线性 判别 模型 更 好 ? 在 解决 诸如 随机 选择 消费 者 作为 目标 市 场 营 
销 目标 的 问题 时 ， 是 否 有 哪个 模型 比 基 线 “模型 ”更 好 ? 每 个 模型 都 有 比 其 他 模型 做 出 更 
好 决策 的 可 能 。 我 们 关心 的 是 : 总 体 来 说 ， 每 个 模型 的 性 能 如 何 〈 它 的 期 望 值 是 多 少 )。 


我 们 可 以 用 刚刚 介绍 的 期 望 值 框架 来 确定 每 个 模型 的 最 佳 决 策 ， 然 后 通过 不 同 的 方式 用 期 
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望 值 来 比较 模型 。 如 果 要 计算 组 合 模型 的 期 望 收益 ， 那 么 公式 7-1 中 的 每 个 o 都 对 应 了 一 
种 不 同 的 预测 情况 和 实际 情况 的 组 合 。 我 们 希望 汇总 所 有 的 可 能 情况 ,总体 来 说 ， 当 决定 
对 消费 者 进行 目标 市 场 营销 时 ， 他 们 响应 的 概率 是 多 少 ? 他 们 不 响应 的 概率 又 是 多 少 ? 如 果 





不 对 消费 者 进行 目标 市 场 营 销 ， 那 么 他 们 (假设 被 提供 促销 优惠 时 ) 会 响应 吗 ? 你 可 能 


记 


得 ， 我 们 甚 实 已 经 在 混 请 矩阵 中 得 出 了 计算 上 述 问 题 所 必需 的 数字 。 每 个 o 都 对 应 了 混淆 和 矩 
阵 中 的 一 个 单元 。 例 如 : 预测 为 流失 用 户 同 时 又 是 实际 未 流失 用 户 的 组 合 概率 是 多 少 ?” 这 





可 以 用 测试 集中 落 入 矩阵 单元 (Y n) 的 用 户 数量 除 以 测试 集中 的 用 户 总 数 来 估计 。 


让 我 们 在 计算 这 些 概率 的 过 程 中 ， 从 整个 模型 层面 来 计算 期 望 收益 。 图 7-2 是 模型 归 








纳 和 


模型 评估 过 程 中 期 望 值 计算 的 示意 图 。 在 图 的 左上 方 ， 训 练 集 数据 作为 输入 ， 进 入 归纳 
算法 过 程 。 在 此 基础 上 ， 我 们 建立 起 所 要 评估 的 模型 ， 然 后 将 该 模型 应 用 于 所 保留 的 测试 
集 ， 并 统计 出 混淆 和 矩阵 中 不 同 单元 所 对 应 的 计数 的 总 和 。 表 7-4 展示 了 一 个 分 类 器 混 清算 











阵 的 具体 案例 。 
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图 7-2: PEBHtSS. NA 代表 期 望 值 计算 中 的 乘法 和 求 和 
表 7-4: 一 个 混 满 矩阵 计数 的 案例 





p n 
Y 56 7 
N 5 42 





1. 错误 率 
在 计算 实际 问题 的 期 望 值 时 ， 分 析 师 经 常 面临 这 样 的 问题 : 这 些 概率 来 自 于 哪里 ? 当 你 在 
测试 集 上 验证 模型 的 时 候 ， 答 案 就 很 明显 了 : 这 些 (错误 决策 和 正确 决策 的 ) 概率 可 以 通 
过 在 混淆 矩阵 中 统计 决策 的 正确 率 和 错误 率 来 估计 。 混 请 和 矩阵 的 每 个 单元 包含 不 同 决策 所 
对 应 的 组 合 ( 预 测 的 ， 实 际 的 ) 的 计数 ， 我 们 将 其 表示 为 count(h, a) (之 所 以 使 用 瑚 表示 
“预测 的 数目 ”， 是 因为 p 已 经 被 使 用 了 )。 在 期 望 值 计算 过 程 中 ， 我 们 将 这 些 计数 转化 为 
比率 或 估计 概率 p(h, a)。 我 们 通过 用 每 个 计数 除 以 样本 总 数 来 进行 转化 : 

p(h, a) = count(h, a) / T 
下 面 是 根据 混 靖 和 矩阵 中 每 个 原始 统计 数据 计算 出 的 比率 。 这 些 比率 就 是 我 们 将 在 公式 7-1 
中 计算 期 望 值 时 使 用 的 估计 概率 。 
































T= 110 
PCY, p) = 56/110 = 0.51 p(Y,n) = 7/110 = 0.06 
P(N, p) = 5/110=0.05 PN n) = 42/110 = 0.38 


2. 成 本 和 收益 

为 了 计算 期 望 收 益 〈 见 公式 7-1) ， 我 们 还 需要 知道 每 对 决策 所 对 应 的 成 本 和 收益 的 值 。 我 
们 将 构建 一 个 与 混淆 矩阵 维度 相同 ( 行 和 列 ) 的 成 本 收益 和 矩阵。 成 本 收益 矩阵 详细 列 出 
了 每 对 决策 (预测 ， 实 际 ) 对 应 的 成 本 和 收益 ( 见 图 7-3)。 正 确 的 分 类 〈 真 阳性 和 真 阴 
HE) 分 别 对 应 了 收益 b(Y, p) FUAN, n); 而 错误 的 分 类 〈 假 阳性 和 假 阴 性 ) 分 别 对 应 “ 收 
aa.” DCY, n) 和 Pb(N, p)， 而 这 实际 上 是 成 本 〈 负 收益 ) ， 并 且 通 常 更 明确 地 表示 为 成 本 c(Y, n) 
和 c(N,p)。 


























p n 
图 7-3: 成 本 收益 矩阵 


通常 ， 尽 管 我 们 可 以 从 数据 中 估计 概率 ， 却 无 法 估计 成 本 和 收益 。 我 们 会 通过 分 析 特 定 业 
务 问 题 中 决策 导致 的 后 果 来 确定 成 本 和 收益 的 值 。 实 际 上 ， 确 定 成 本 和 收益 可 能 需要 花费 


预测 
































TE3: 有 时 候 这 个 矩阵 也 被 称 为 “代价 和 矩阵 "。 一 一 译 者 注 
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大 量 时 间 去 思考 。 在 许多 情况 下 ， 我 们 并 不 能 计算 出 一 个 准确 的 值 ， 只 能 找到 一 个 大 概 的 
范围 。 第 8 章 将 回 过 头 来 讨论 在 无 法 得 出 确切 的 值 时 该 怎么 做 。 比 如 说 : 对 于 用 户 流失 问 
题 而 言 ， 维 护 一 个 用 户 要 花 多 少 钱 ? 这 个 价值 可 能 取决 于 未 来 的 手机 使 用 情况 ， 而 不 同 用 
户 之 间 的 差异 很 大 。 用 户 之 前 的 手机 使 用 状况 的 数据 也 许 有 助 于 估计 。 在 许多 情况 下 ， 为 
了 简化 问题 ， 我 们 会 使 用 平均 值 而 不 是 个 别 特定 值 来 估计 收益 和 成 本 。 因 此 ， 下 面 的 例子 
将 忽略 对 个 别 用户 特 定 成 本 /收益 的 计算 ， 但 是 这 个 问题 将 在 第 11 章 中 再 讨论 。 

在 数学 上 ， 除 了 符号 之 外 ， 成 本 和 收益 之 间 是 没有 区 别 的 。 为 了 简单 起 见 ， 
从 现在 起 ， 本 章 将 所 有 值 都 表示 为 收益 ， 成 本 就 是 负 收 益 。 这 样 ， 我 们 只 需 
要 定义 一 个 函数 ， 即 AAN, 实际 )。 







































































让 我 们 回 到 目标 市 场 营销 的 例子 。 这 里 的 成 本 和 收益 是 多 少 ? 简单 起 见 ， 所 有 数字 都 将 表 

示 为 美元 。 

。 假 阳 性 错误 是 指 我 们 把 一 个 用 户 认定 为 可 能 响应 用 户 ， 并 针对 其 进行 营销 ， 但 其 没有 做 
出 响应 。 我 们 已 经 说 过 ， 准 备 和 邮寄 宣传 材料 的 成 本 是 每 人 1 美元 。 在 这 种 情况 下 ， 收 
tay SUH: bY, n)=—1. 

。 假 阴 性 错误 是 会 购买 产品 的 用 户 被 错误 判断 为 不 会 购买 ， 因 此 没有 对 其 进行 产品 宣传 。 
这 种 情况 下 ， 我 们 既 没 有 花费 成 本 ， 也 没有 获得 收益 ， 因 此 DN, p) = 0。 

。 真 阳性 是 指 给 用 户 发 放 了 宣传 材料 ,该 用 户 也 购买 了 商品 。 这 种 情况 下 的 收益 是 收入 (200 
美元 ) 减 去 产品 的 相关 成 本 (100 美元 ) 和 邮寄 费用 (1 美元 ) ， 因 此 bY, p) = 99。 

。 真 阴性 的 情况 是 未 给 没有 购买 产品 意向 的 用 户 介绍 产品 。 这 种 情况 下 收益 是 零 (没有 收 
入 也 没有 成 本 )， 因 此 DCN, n) =0。 

这 些 成 本 收益 的 估计 可 归纳 为 一 个 2 x 2 成 本 收益 矩阵 ， 如 图 7-4 所 示 。 请 注意 ， 这 里 的 行 

和 列 与 混淆 矩阵 是 相同 的 ， 而 这 正 是 我 们 计算 分 类 模型 的 总 体 期 望 值 时 所 需要 的 。 

















p n 
预测 Y É 99 -1 
N Ño 0 


图 7-4: 目标 市 场 营销 示例 的 成 本 收益 矩阵 
给 定 成 本 和 收益 抢 阵 ， 将 它 与 概率 矩阵 相 乘 ， 其 结果 之 和 就 是 总 的 期 望 利润 。 结 果 如 下 : 


期 望 收益 = pY, p)-B(Y, p) + p(N, p)-B(N, p) + 

P(N, n)-D(N, n) + p(Y, n)-b(Y, n) 

使 用 这 个 公式 ， 就 可 以 计算 和 比较 各 种 模型 或 其 他 目标 市 场 选择 策略 的 期 望 收 益 。 我 们 要 
做 的 只 是 用 一 组 测试 实例 来 计算 混 靖 和 矩阵， 并 且 以 此 计算 出 相应 的 成 本 收益 矩阵 。 

这 个 公式 用 来 比较 分 类 器 其 实 已 经 足够 了 ， 但 是 ， 我 们 还 要 沿 着 这 条 路 继续 前 进 ， 因 为 在 

实际 应 用 中 经 常会 用 到 一 种 灰 代 方法 。 这 个 替代 方法 与 一 些 使 分 类 器 性 能 可 视 化 的 技术 密 

切 相 关 (参见 第 8 章 )。 另 外 ， 通 过 检查 替代 公式 ， 我 们 可 以 清楚 地 知道 如 何 处 理 本 章 开 






































152 | 第 7 章 





头 的 模型 的 比较 问题 一 一 一 位 分 析 师 使 用 了 有 代表 性 (但 不 均衡 的 ) 数据 集 来 测试 模型 性 
能 ， 而 另 一 位 分 析 师 使 用 了 均衡 数据 集 。 

计算 期 望 利润 的 一 种 常见 方式 就 是 分 解 出 每 个 类 别 的 概率 ， 通 常 称 为 类 的 先 验 概率 。 类 的 
先 验 概率 ，p(p) Fl p(n), 分别 表 示 了 出 现 正 向 结果 和 人 负 向 结果 的 可 能 性 。 把 这 些 因素 都 考 
虑 在 内 ， 我 们 可 以 把 类 别 不 平衡 的 影响 与 模型 的 基本 预测 能 力 区 分 开 来 。 第 8 章 将 对 此 进 
行 详细 讨论 。 

基本 概率 规则 是 : 











p(x,y) = PO) p(x |y) 
这 表明 两 个 事件 同时 发 生 的 概率 等 于 其 中 一 个 事件 发 生 的 概率 乘 以 另 一 个 事件 在 已 知 第 一 
个 事件 发 生 的 条 件 下 发 生 的 概率 。 使 用 此 规则 ， 我 们 可 以 重新 计算 期 望 收益 : 
期 望 收益 = p(Y |p)-p(p)yB(Y, p) +p(N|p)p(p)-b(N, p) + 
P(N|n):p(n) DN, n) + p(Y In) pa) bY, n) 

考虑 到 类 先 验 p(p) 和 p(n)， 我 们 得 到 最 终 的 公式 。 
公式 7-2: 考虑 了 先 验 p(p) F p(n) 的 期 望 收益 公式 

期 望 收益 =p(p)[p(Yl|p)-b(Y, p) + p(NI|p)-A(N, p)] + 

PW:[P(N|n):b(N, n) + p(YIn)-b(Y, n)] 

在 这 个 繁杂 的 公式 中 ， 我 们 广 意 到 有 一 部 分 (第 一 部 分 ) 对 应 了 正 向 实例 的 期 望 收益 ， 另 
一 部 分 (第 三 部分) 则 对 应 了 负 向 实例 的 期 望 收益 。 各 部 分 的 所 加 权重 为 该 种 实例 出 现 的 
概率 。 因 此 ， 如 果 正 样本 非常 少 ， 那 么 它们 对 总 体 期 望 收 益 的 相应 贡献 就 会 很 小 。 在 这 个 
替代 公式 中 ，P(YIp) 对 应 真 阳 性 比率 ，P(Ylo) 对 应 假 阳 性 比率 ， 以 此 类 推 。 这 个 概率 可 以 
直接 从 混淆 矩阵 计算 (请 参阅 后 文 的 “其 他 评估 指标 ”)。 
K 7-5 展示 了 我 们 的 混淆 矩阵 。 
表 7-5: 我 们 的 混 满 矩阵 (原始 计数 ) 
































p n 
Y 56 7 
N 5 42 


表 7-6 显示 了 我 们 需要 的 类 的 先 验 概 率 和 各 种 错误 率 。 
表 7-6: 类 的 先 验 概率 和 真 阳性 比率 、 假 阳性 比率 等 





T=110 
P=61 N=49 

pp) = 0.55 p(n) = 0.45 

真 阳性 比率 = 56/61 = 0.92 假 阳 性 比率 = 7/49 = 0.14 
假 阴性 比率 = 5/61 = 0.08 真 阴性 比率 = 42/49 = 0.86 











让 我 们 回 到 目标 市 场 营 销 的 示例 。 模 型 计算 出 的 期 望 利润 是 多 少 ? 可 以 用 公式 7-2 计算 : 
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期 望 收益 = pp) [pY |p) bY, p) + P(N |p) O(N, p)] + 
p(n) -[p(N|n)-B(N,n) + p(y |n)-b(Y,n)] 
= 0.55-[0.92 -b(Y, p) +0.08 -b(N,p)] + 
0.45 -[0.86-b(N,n) + 0.14-b(Y,n)] 
=0.55-[0.92 -99 +.0.08 -0]+ 
0.45 -[0.86-0 + 0.14- (-1)] 
=50.1- 0.063 
~ $50.04 


这 个 期 望 值 意味 着 ， 如 果 将 这 个 模型 应 用 于 潜在 客户 群 ， 并 给 那些 被 归 为 正 向 标签 的 用 户 
邮寄 宣传 材料 ， 那 么 我 们 预期 能 从 每 个 用 户 身上 赚 到 50 美元 。 

现在 ， 我 们 学 会 了 一 种 能 够 处 理 本 章 开 头 所 提 到 的 激励 问题 的 方法 : 计算 模型 的 期 望 值 ， 
而 不 是 其 准确 率 。 另 外 ， 使 用 这 种 替代 方法 ， 即 便 一 个 分 析 师 使 用 了 代表 性 数据 集 ， 而 另 
一 个 使 用 平衡 数据 集 来 进行 测试 ， 我 们 仍 可 以 比较 两 个 模型 。 在 每 次 计算 中 ， 我 们 都 可 以 
简单 地 替换 先 验 概率 ， 使 用 平衡 的 数据 分 布 来 对 应 p(p) = 0.5 和 p(n) = 0.5 的 概率 分 布 。 精 
通 数 学 的 读者 可 以 尝试 证 明 ， 即 便 先 验 济 试 集 发 生变 化 ， 公 式 中 的 其 他 因素 也 不 会 改变 。 


为 了 结束 有 关 估 计 利 润 的 这 部 分 内 容 ， 在 此 强调 一 下 在 计算 成 本 收益 矩阵 时 

常见 的 两 个 陷阱 。 

。 保 持 成 本 收益 矩阵 中 符号 的 一 致 性 非常 重要 。 本 书 将 收益 看 作 正 向 的 ， 而 
把 成 本 看 作 负 向 的 。 而 在 许多 数据 挖掘 的 研究 中 ， 最 重要 的 往往 不 是 使 利 
润 最 大 化 ， 而 是 使 成 本 最 小 化 ， 因 此 成 本 和 收益 的 符号 是 相反 的 。 虽 然 在 
数学 上 这 没有 区 别 ， 但 是 ， 有 一 个 统一 的 视角 是 非常 重要 的 。 

。 计 算 成 本 收益 矩阵 时 容易 犯 的 一 个 错误 ， 就 是 “重复 计算 ”， 增 加 收益 的 
同时 也 减少 了 成 本 (反之 亦 然 )， 而 比较 有 效 的 检验 方式 是 计算 因为 决策 
改进 而 带 来 的 收益 提升 。 
假设 你 已 经 建立 了 一 个 模型 来 预测 哪些 账户 遭 到 了 欺诈 。 你 设 定 一 项 欺诈 
事件 的 平均 成 本 为 1000 美元 。 若 检测 出 欺诈 的 收益 为 每 项 +1000 美元 ， 
而 未 能 检测 出 欺诈 的 成 本 是 -1000 美元 ， 那 么 每 检测 出 一 项 欺诈 的 收益 提 
升 是 多 少 呢 ? 你 会 这 样 计算 : 

b(Y, p) — bN, p) = $1000 — (— $1000) = $2000 


但 在 直觉 上 ， 你 知道 实际 带 来 的 增长 只 有 1000 美元 ， 因 此 这 表明 你 重复 
计算 了 。 解 决 方案 是 ， 规 定 捕获 欺诈 的 收益 是 +1000 美元 ， 或 捕获 丢失 欺 
诈 的 成 本 是 -1000 美元 ， 两 者 不 能 同时 计 入 ， 其 一 应 该 是 零 。 













































































其 他 评估 指标 
你 可 能 会 在 学 习 数 据 科 学 的 过 程 中 遇 到 许多 评估 指标 。 其 实 ， 所 有 的 这 些 指标 都 是 
在 混 消 和 纸 阵 的 基础 上 建立 起 来 的 。 参 考 混 消 矩阵 中 每 个 单元 的 含义 ， 我 们 分 别 用 
TP、FP、TN 和 FN 来 表示 真 阳性 、 假 阳性 、 真 阴性 和 假 阴 性 ， 然 后 用 这 些 单元 来 计 
算 各 种 评估 指标 。 真 阳性 比率 和 假 阴性 比率 分 别 阐 当 被 预测 的 个 体 真实 值 为 正 的 时 
Ke, AMAA LH (预测 为 正 ) 和 错误 (预测 为 负 ) 的 比率 ， 表 示 为 TPATP+FN) 和 
FNATP+FN), B E a a a Ws We dan 
举 。 这 些 通 党 被 看 作 当 个 体 真实 值 为 p 的 时 候 ， 预 测 为 Y 的 概率 人 估计， 好 P(Y|p)， 
如 此 类 。 我 们 将 在 第 8 章 中 继续 探讨 这 些 测量 方法 。 


经 常 使 用 的 指标 还 有 精确 度 和 召回 率 ， 它 们 在 文本 分 类 和 信息 检索 的 场景 中 尤其 常用 。 
召回 率 与 真 阳性 率 相 同 ， 而 精确 度 则 是 TPATP+FP)， 即 预测 为 正 的 情况 下 的 准确 率 。 
F-measure 则 是 某 给 定点 的 精度 和 召回 的 调和 平均 值 : 


精确 度 ` 召 回 率 
精确 度 + 召 回 率 


统计 学 、 模 式 识 别 和 流行 病 学 等 许多 领域 的 从 业者 都 会 用 到 分 类 器 的 敏感 性 和 特异 性 





F-measure = 2- 


敏感 性 =TNM/(TN + FP) = Apre% =1 — PEO 
特异 性 =TP/(TP +FN) = 真 阳性 比率 


你 可 能 还 听 过 阳性 预测 值 ， 这 其 实 和 精确 度 相同 。 
前 面 提 到 的 准确 率 ， 则 是 预测 正确 的 计数 除 以 样本 总 数 ， 或 表示 为 : 





TP+TN 
P+N 


Swets (1996) 列 出 了 许多 其 他 评估 指标 以 及 它们 与 混 消 和 矩阵 的 关系 。 


准确 率 = 











7.4 评估、 基线 性 能 以 及 对 数据 投资 的 意义 


到 目前 为 止 ， 我 们 已 经 对 模型 的 评估 进行 了 相对 孤立 的 讨论 。 在 某 些 情况 下 ， 仅 仅 证 明 模 
型 可 以 产生 一 些 〈 非 零 ) 利润 ， 或 者 投资 获得 了 正 向 的 收益 的 过 程 本 身 就 富 含 信息 。 然 
而 ， 这 里 需要 提出 数据 科学 中 的 另 一 条 基本 概念 : 仔细 考虑 什么 才 是 合适 的 模型 性 和 的 比 
较 基线 是 很 重要 的 。 这 对 于 数据 科学 团队 来 说 非常 重要 ， 因 为 他 们 要 了 解 模 型 性 能 是 否 确 
实 有 所 提高 。 这 对 向 利益 相关 者 展示 挖掘 数据 的 附加 价值 也 同样 重要 。 那 么 ， 什 么 才 算 是 
合适 的 比较 基线 ? 


答案 当然 取决 于 实际 应 用 。 提 出 合适 的 基线 是 数据 挖掘 流程 中 业务 理解 环节 的 一 
务 。 不 过 ,仍然 有 一 些 通 用 的 原则 可 供 参 考 。 


对 于 分 类 模型 而 言 ， 模 拟 完 全 随机 的 情况 并 以 此 测量 模型 性 能 是 非常 容易 的 。 第 8 章 将 讨 
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论 的 随机 分 类 框架 有 自然 基线 ， 可 以 展示 随机 分 类 所 要 达到 的 指标 ， 这 对 一 些 非常 困难 的 
问题 或 初步 探讨 会 非常 有 用 。 与 随机 模型 的 比较 往往 会 证 明 数 据 中 仍 有 待 提取 的 信息 。 


然而 ， 因 为 击败 随机 模型 可 能 很 容易 (或 者 看 起 来 很 容易 )， 所 以 证 明 随机 模型 的 优越 性 
可 能 不 是 一 件 有 趣 的 事情 ， 也 无 法 带 来 什么 信息 。 因 此 数据 科学 家 通常 需要 用 替代 模型 ， 
通常 是 简洁 且 不 过 度 简 单 的 模型 ， 以 便 验 证 继续 数据 挖掘 工作 的 合理 性 。 


Nate Silver 在 他 的 作品 《信和 号 与 噪声 》(2012) 中 ， 提 到 了 天 气 预报 的 基线 问题 : 


任何 天 气 预 报 要 想 证 明 其 价值 ， 必 须 通过 两 个 基本 测试 : 首先 ， 它 必须 要 比 气象 
学 家 所 说 的 持续 性 ( 即 假设 明天 和 后 天 的 天 气 与 今天 一 样 ) 更 准确 ; 其 次 ， 它 还 
必须 要 击败 气候 学 理论 ， 即 特定 地 区 特定 日 期 的 长 期 历史 平均 条 件 。 


换 名 话说， 天 气 预报 员 有 两 个 可 以 用 于 比较 的 简洁 且 不 过 度 简 单 的 基线 模型 : 一 个 〈 持 
续 ) 预测 明天 的 天 气 将 会 和 今天 一 样 ， 另 一 个 (气候 学 ) 预测 这 一 天 的 天 气 就 是 往年 的 平 
均 历史 天 气 。 这 两 个 模型 的 性 能 都 比 随机 预测 要 好 得 多 ， 而 且 也 都 很 容易 计算 ， 因 此 可 以 
作为 用 于 比较 的 自然 基线 。 任 何 更 复杂 的 新 模型 都 必须 击败 这 两 个 模型 。 


好 的 基线 的 一 般 性 原则 是 什么 ?对 于 分 类 任务 而 言 ， 一 条 好 的 基线 必须 是 一 个 大 样本 分 类 
器 ， 即 一 个 总 是 选择 训练 数据 集中 的 多 数 类 的 原始 分 类 器 (参见 5.3.1 节 中 的 基础 比率 注 
释 )。 这 部 分 内 容 看 上 去 可 能 十 分 浅显 ， 可 以 略 过 ， 但 是 它 其 实 值 得 我 们 花 一 点 时 间 阅 读 ， 
因为 很 多 非常 聪明 又 有 分 析 性 思维 的 人 常 因为 忽略 了 这 个 地 方 而 过 到 麻烦 。 例 如 ,分 析 师 
看 到 一 个 分 类 器 的 分 类 准确 率 为 94%， 就 认为 模型 的 性 能 很 好 一 一 但 实际 上 正 样本 只 

6%。 因 此 ， 一 个 简单 的 大 样本 分 类 器 也 会 有 94% 的 准确 率 。 实 际 上 ,很 多 刚 开始 研究 数 
据 科学 的 学 生 都 会 惊讶 地 发 现 ， 他 们 根据 数据 构建 的 模型 只 是 简单 地 把 一 切 都 预测 为 数据 
集中 的 多 数 类 。 值 得 注意 的 是 ， 如 果 建 模 过 程 以 将 模型 的 准确 率 最 大 化 为 目标 ， 那 么 这 种 
现象 可 能 是 有 意义 的 一 一 模型 的 准确 率 很 难 超过 94% 。 这 里 要 运用 本 章 的 核心 思想 : 仔细 
考虑 我 们 想 从 数据 挖掘 的 结果 中 获得 什么 。 追 求 预测 准确 率 的 最 大 化 通常 不 是 一 个 合适 的 
目标 。 如 果 这 是 算法 现在 正在 做 的 ， 那 我 们 可 能 使 用 了 错误 的 算法 。 针 对 回归 问题 有 一 条 
类 似 的 基线 : 使 用 总 体 的 均值 (通常 是 平均 值 或 中 位 数 ) 作为 预测 值 。 


在 一 些 应 用 场景 中 ， 我 们 可 能 需要 组 合 多 个 简单 平均 值 。 例 如 ， 在 评估 那个 用 于 预测 特定 
用 户 将 为 特定 电影 打 多 少 颗 “ 星 ”的 推荐 系统 时 ， 我 们 可 以 获得 一 部 电影 在 整个 总 体 中 获 
得 的 平均 星 数 (观众 的 喜好 程度 ) 和 特定 用 户 给 出 的 平均 星 数 (该 用 户 的 整体 偏见 是 什 
么 )。 基 于 这 两 者 的 预测 要 比 基 于 其 中 单独 一 个 的 预测 好 得 多 。 


除了 这 些 简 单 的 基线 模型 之 外 ， 稍 微 复杂 的 替代 方法 是 仅 考虑 非常 少 的 特征 信息 的 模型 。 
例如 ， 回 顾 从 第 3 章 开始 介绍 的 第 一 个 数据 挖掘 示例 : 寻找 富 信息 变量 。 如 果 我 们 找到 一 
个 与 目标 有 最 佳 关联 的 变量 ， 就 可 以 建立 一 个 只 有 该 变量 的 分 类 或 回归 模型 ， 这 给 出 了 基 
线性 能 的 另 一 种 观点 : 简单 的 “有 条 件 ” 模 型 性 能 如 何 ? 这 里 的 “有 条 件 ” 意 味 着 基于 特 
征 值 或 以 特征 值 为 条 件 进行 不 同 的 预测 。 因 此 ， 总 体 的 平均 值 有 时 被 称 为 “无 条 件 ” 的 平 
均值 。 
从 数据 中 挖掘 这 类 单 特 征 预测 模型 的 一 个 例子 就 是 用 树 型 归纳 构建 “决策 树桩 ” 仅 有 
一 个 内 部 节点 〈 根 节点 ) 的 决策 树 。 只 有 一 个 内 部 节点 的 树 意味 着 在 树 的 归纳 过 程 中 ， 会 
选择 信息 量 最 大 的 特征 来 做 决策 。Robert Holte (1993) 在 他 的 一 篇 著名 的 机 器 学 习 论 文中 
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表示 ， 在 机 器 学 习 的 研究 中 ， 决 策 树桩 在 许多 测试 集 上 都 会 表现 出 相当 好 的 基线 性 能 。 决 
策 树桩 是 一 个 从 很 多 可 用 信息 中 选择 最 有 效 的 信息 ( 见 第 3 章 ) 的 策略 的 例子 ， 而 所 有 的 
决策 也 都 根据 这 个 策略 来 进行 。 在 某 些 情况 下 ， 大 部 分 的 影响 可 能 来 自 某 单个 特征 ， 而 且 
这 个 方法 可 以 评估 该 特征 是 否 造成 影响 以 及 造成 多 大 影响 。 

这 个 概念 可 以 扩展 到 数据 源 当 中 ， 而 且 与 第 1 章 中 提 到 的 基本 原则 (我 们 应 该 把 数据 看 作 
要 投资 的 资产 ) 相关 。 如 果 你 正在 考虑 使 用 各 个 来 源 收集 到 的 数据 去 构建 模型 ， 就 应 该 把 
这 个 结果 与 基于 单独 来 源 的 数据 建立 的 模型 做 比较 。 通 常 ， 你 需要 大 量 成 本 来 获取 新 的 数 
据 源 。 某 些 情况 下 ， 它 们 是 实际 的 金钱 成 本 ， 男 一 些 情况 下 ， 这 还 关系 到 管理 与 数据 供应 
商 关 系 和 监督 数据 馈送 的 人 员 的 时 间 成 本 。 因 此 ， 和 针对 每 个 数据 产 ， 数 据 科 学 团队 应 该 在 
使 用 这 个 数据 源 的 模型 与 不 使 用 这 个 数据 源 的 模型 之 间 进 行 比较 。 通 过 比较 ， 我 们 可 以 量 
化 每 个 数据 源 所 提供 的 价值 以 估计 成 本 。 如 果 某 个 数据 源 所 带 来 的 价值 可 以 忽略 不 计 ， 那 
么 团队 可 以 舍弃 它 ， 从 而 降低 成 本 。 


除了 与 简单 模型 《和 简化 数据 模型 ) 比较 之 外 ， 基 于 行业 知识 或 “已 知 经 验 ” 来 构建 简单 
且 低 成 本 的 模型 以 供 比较 也 是 非常 有 用 的 。 例 如 ， 在 一 个 欺诈 检测 的 应 用 场景 中 ， 大 多 数 
被 欺诈 的 账户 通常 会 出 现 交 易 量 突然 增加 的 情况 ， 因 此 通过 检查 账户 的 交易 数量 和 交易 额 
是 否 突然 增加 ， 我 们 可 以 捕获 大 部 分 的 欺诈 事件 。 这 个 想法 很 容易 实现 (这 本 质 上 是 一 个 
单 变量 预测 模型 )， 而 且 它 提供 了 一 条 有 用 的 比较 基线 ， 可 以 充分 证 明 数 据 挖掘 的 优势 。 
类 似 地 ，IBM 的 团队 经 常 利 用 数据 挖掘 来 指导 他 们 的 销售 工作 ， 他 们 部 署 了 一 个 简单 的 销 
售 模型 : 根据 其 之 前 的 收入 对 现存 客户 进行 排序 ， 而 根据 年 销售 额 对 其 他 公司 进行 排序 。” 
他 们 可 以 证 明 其 所 执行 的 数据 挖掘 带 来 的 价值 超过 这 项 简单 策略 带 来 的 价值 。 无 论 数 据 挖 
所 小 组 选择 了 什么 样 的 比较 基线 ， 它 都 应 该 能 让 利益 相关 者 觉得 其 中 的 信息 很 有 用 ， 而 且 
最 好 很 有 说 服 力 。 


7.5 ”小 结 


数据 科学 一 个 至 关 重 要 的 环 市 就 是 对 模型 进行 正确 的 评估 。 但 是 令 人 惊讶 的 是 ， 特 别 正确 
的 模型 评估 是 很 难 实现 的 ， 而 评估 过 程 通 常 需要 进行 多 次 迭代 。 人 们 往往 倾向 于 选择 简单 
的 评估 指标 ， 比 如 分 类 准确 率 ， 因 为 它们 不 仅 很 容易 计算 ， 又 在 许多 研究 论文 中 被 使 用 ， 
还 可 能 是 人 们 在 学 校 学 到 的 东西 。 然 而 在 现实 中 ， 过 于 简单 的 方法 很 少 能 够 捕捉 到 问题 真 
正 的 关键 ， 其 至 常常 误导 我 们 。 相 反 ， 数 据 科学 家 应 该 仔细 思考 模型 将 会 如 何 应 用 于 实践 ， 
并 且 设 计 出 合适 的 度量 指标 。 

期 望 值 的 计算 过 程 为 组 织 这 种 思路 提供 了 良好 的 框架 。 它 将 有 助 于 构建 评估 框架 ， 并且 一 
且 最 终 部 署 的 模型 产生 了 不 可 接受 的 结果 ， 它 也 有 助 于 识别 错误 。 

在 评估 数据 科学 结果 时 ， 必 须 仔细 考虑 数据 的 特点 。 例 如 ， 真 正 的 分 类 问题 通常 会 出 现 非 
常 不 平衡 的 类 别 分 布 (也 就 是 说 ， 类 别 不 会 普遍 地 等 比例 出 现 )。 调 整 类 别 的 比例 对 训练 
模型 可 能 是 有 用 的 〈 甚 至 是 必要 的 )， 但 是 ， 评 估 的 时 候 还 是 应 该 使 用 原始 、 真 实 的 数据 
集 ， 以 便 结 果 能 够 反映 出 真正 要 实现 的 目标 。 



















































































































































































注 4: 他 们 将 这 些 称 为 Willy Sutton 模型 ， 这 位 著名 的 银行 抢 动 犯 抢 动 了 银行 ， 因 为 “这 就 是 放 钱 的 地 方 ”。 
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要 计算 模型 的 总 体 期 望 值 ， 必 须 明确 决策 的 成 本 和 收益 。 如 果 能 做 到 这 一 点 ， 那 么 数据 科 
学 家 就 可 以 计算 出 每 个 模型 中 的 每 个 实例 的 期 望 成 本 ， 并 选择 期 望 成 本 最 低 或 利润 最 大 的 


模型 。 


同样 至 关 重 要 的 一 个 问题 是 : 我 们 应 把 数据 驱动 模型 与 什么 做 比较 ， 来 判断 它 是 否 性 能 
好 或 者 是 否 性 能 更 好 。 这 个 问题 的 答案 与 对 业务 的 理解 紧密 相连 ， 不 过 ,仍然 有 各 种 最 佳 
实践 需要 数据 科学 团队 遵循 。 


我 们 应 用 前 几 章 所 展示 的 概念 阐释 了 本 章 的 思想 。 这 些 概念 当然 是 一 般 性 的 ， 而 且 与 最 初 
的 基本 概念 相关 : 数据 应 被 视 为 资产 ， 我 们 应 该 思考 如 何 对 其 进行 投资 。 这 一 点 可 以 体现 
在 本 章 的 简要 讨论 中 : 分 析 人 员 不 仅 可 以 在 不 同 的 模型 和 不 同 的 基线 之 间 进 行 比较 ， 还 可 
以 比较 不 同 的 数据 源 所 产生 的 结果 。 不 同 的 数据 源 会 有 不 同 的 相关 成 本 ， 而 谨慎 的 评估 可 
以 告诉 我 们 选择 哪 一 个 会 使 投资 回报 最 大 化 。 

最 后 ， 本 章 讨论 了 衡量 模型 性 能 的 单一 数值 指标 。 它 们 可 以 回答 诸如 “我 期 望 有 多 少 收 
w “我 应 该 使 用 模型 A 还 是 模型 B” 之 类 的 问题 。 相 应 的 答案 虽然 有 用 ， 但 是 仅 能 提供 
基于 一 系列 具体 假设 的 “ 单 点 数值 。 如 果 能 够 在 更 宽泛 的 条 件 下 ， 将 模型 的 行为 可 视 化 ， 
则 往往 会 更 有 启发 性 。 下 一 章 就 将 讨论 这 一 点 : 模型 性 能 的 图 形 化 。 
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第 8 和 章 


模型 性 能 的 可 视 化 





基本 概念 : 多 种 不 确定 性 下 的 模型 性 能 的 可 视 化 ; 进一步 考虑 期 望 从 数据 挖掘 的 
结果 中 获得 什么 


示例 方法 : 利润 曲线 ; 累积 响应 曲线 ; 提升 曲线 ; ROC 曲线 


上 一 章 介 绍 了 模型 评估 的 基本 问题 ， 并 探讨 了 如 何 建 立 一 个 好 模型 ， 还 基于 期 望 值 的 杠 
架 实 现 了 进一步 的 计算 。 比 起 之 前 的 章节 ， 上 一 章 的 数学 味道 更 浓 一 些 ， 因 此 如 果 你 是 
第 一 次 学 习 那 些 知识 ， 那 么 可 能 很 难 理解 其 中 的 公式 。 虽 然 这 些 公 式 是 后 续 章 节 的 基础 ， 
但 它们 本 身 可 能 不 够 直观 。 本 章 将 从 另 一 个 角度 来 进一步 理解 这 些 公式 。 


期 望 利润 公式 〈 见 公式 7-2) 需要 一 系列 特定 条 件 来 得 出 该 场景 下 由 单个 数字 表示 的 期 望 
利润 值 。 但 数据 科学 团队 之 外 的 利益 相关 者 可 能 缺乏 耐心 ， 不 想 考 虑 这 些 细 方 ， 只 想 看 到 
关于 模型 性 能 的 更 高 层次 的 、 更 直观 的 描述 。 因 为 这 些 指标 依赖 于 严格 的 假设 条 件 〈 比 如 
成 本 和 收益 的 确切 信息 ， 或 者 准确 的 模型 概率 估计 )， 所 以 就 连 擅 长 和 公式 及 枯燥 的 计算 
打交道 的 数据 科学 家 也 会 觉得 这 样 的 单一 检验 干巴 巴 的 ， 信 息 量 太 小 。 一 般 来 说 ， 可 视 化 
形式 往往 是 比 数学 计算 形式 更 有 效 的 呈现 方式 ， 本 章 会 介绍 一 些 有 用 的 技术 。 


8.1 排序 ， 而 不 是 分 类 


7.3 节 讨 论 了 如 何 基于 各 种 情形 的 期 望 值 ， 利 用 模型 分 配 的 分 数 来 为 每 个 情形 做 决策 。 而 
另 一 种 决策 策略 是 按 分 数 对 不 同情 形 排序 ， 然 后 按照 业务 逻辑 对 排序 靠 前 的 几 种 情形 采取 
适当 的 措施 。 我 们 不 会 单独 判断 每 种 情形 ， 而 是 选择 前 n 种 情形 (或 选择 所 有 分 数 大 于 给 
定 国 值 的 情形 )。 实 践 中 ， 这 样 做 的 原因 有 很 多 。 

原因 之 一 是 模型 给 出 的 分 数 虽然 能 够 根据 每 种 情形 属于 某 类 的 可 能 性 的 大 小 ， 对 各 种 情形 
进行 排序 ， 却 并 不 是 真实 概率 (回顾 第 4 章 所 讨论 的 ， 把 到 分 类 边界 的 距离 作为 分 类 器 的 
















































































159 


分 数 )。 值 得 强调 的 一 点 是 ， 某 些 原因 可 能 导致 我 们 无 法 通过 分 类 器 得 到 准确 的 概率 估计 。 
比如 在 目标 市 场 营 销 中 ， 当 获取 不 到 足够 的 有 代表 性 训练 实例 时 ， 这 种 情况 就 会 发 生 。 虽 
然 概率 估计 并 不 与 响应 概率 完全 对 应 ， 但 分 类 器 的 分 数 仍 非常 有 助 于 判断 哪 种 情形 更 好 。 


一 个 常见 场景 是 ， 如 果 你 有 一 些 活动 预算 ， 比 如 针对 某 个 活动 的 固定 营销 预算 ， 那 么 你 一 
定 想 针对 那些 最 有 和 希望 响应 的 用 户 进行 营销 。 如 果 要 根据 (不 随 类 别 变 化 的 ) 成 本 和 收益 
对 期 望 值 最 高 的 用 户 投放 营销 广告 ， 那 么 你 只 需要 按照 可 能 性 的 高 低 对 目标 类 别 进行 排 
序 ， 而 无 须 追 求 精确 的 概率 估计 。 唯 一 需要 注意 的 是 ， 你 的 预算 应 该 尽量 小 ， 以 免得 到 负 
的 期 望 值 。 目 前 ， 我 们 还 是 把 它 看 作业 务 理 解 业务 。 


还 有 一 个 原因 是 ， 虽 然 成 本 和 收益 通常 无 法 被 精确 地 定义 ， 但 是 不 管 怎样 我 们 还 是 愿意 采 
取 行 动 (尤其 是 针对 那些 最 有 可 能 响应 的 用 户 )。 下 一 节 将 继续 讨论 这 个 问题 。 












































如 果 单 个 情况 的 成 本 和 收益 各 不 相同 ， 那 么 7.3 节 对 期 望 值 的 讨论 就 应 该 说 
明 仅 按 照 可 能 性 排序 是 不 够 的 。 





在 为 实例 评分 时 ， 在 某 些 情况 下 ,分 类 器 应 当 保守 地 进行 决策 ， 因 为 其 在 预测 时 需要 有 非 
常 大 的 把 握 。 这 相当 于 给 输出 分 数 设 置 了 很 高 的 国 值 。 相 反 ， 阔 值 越 低 ， 分 类 器 的 自由 度 
BK. ' 


这 其 实 把 问题 复杂 化 了 ， 为 此 我 们 需要 对 原来 用 于 评估 和 比较 模型 的 框架 进行 拓展 。7.1.2 
节 提 到 ， 分 类 器 会 产生 混淆 矩阵 。 一 个 带 有 阅 值 的 排序 分 类 器 对 应 一 个 混淆 矩阵 。 混 少 矩 
阵 会 随 着 病 值 的 改变 而 改变 ， 因 为 真 阳性 和 假 阳 性 的 数量 发 生 了 变化 。 

图 8-1 曾 述 了 这 个 基本 思想 。 随 着 闵 值 的 降低 ， 实 例 逐 渐 从 混 光 矩阵 中 的 NN 行 上 升 到 YY 
行 : 原来 被 判定 为 负 向 的 实例 现在 被 认定 为 正 向 ， 实 例 数目 也 因此 改变 。 至 于 哪 种 实例 数 
目 发 生 改 变 ， 取 决 于 实例 到 底 属 于 哪个 类 别 。 如 果实 例 本 身 是 阳性 (p 列 )， 那 么 就 会 上 升 
到 真 阳性 (Y, p) 的 单元 ， 如 果 为 阴性 (n 列 ) ， 则 会 上 升 到 假 阳 性 CY, n) 单元 中 。 严 格 来 讲 ， 
不 同 的 国 值 会 产生 不 同 的 分 类 器 ， 对 应 不 同 的 混淆 矩阵 。 





























注 1: 的 确 ， 在 某 些 应 用 场景 中 ， 同 一 模型 的 评分 可 以 通过 改变 国 值 在 不 同情 况 下 产生 不 同 决策 。 比 如 ， 同 
一 个 模型 既 可 以 用 于 批准 或 拒绝 信贷 发 放 ， 也 可 以 用 于 给 新 用 户 的 授信 。 
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图 8-1: 给 按 分 数 排序 的 不 同 实例 设 定 阔 值 。 这 里 有 一 些 被 模型 赋予 分 数 并 按照 分 数 降序 排列 的 测试 
实例 , FANE AVI (SRA) 使 大 于 阔 值 的 实例 为 正 , 小 于 阅 值 的 实例 为 负 。 
每 个 阔 值 将 产生 一 个 特定 的 混淆 和 矩阵 


这 里 有 两 个 问题 。 如 何 对 不 同 的 排序 进行 比较 ?如 何 选 择 合适 的 阅 值 7 如 果 有 准确 的 概率 
估计 和 定义 明确 的 成 本 收益 和 矩阵， 那么 在 讨论 期 望 值 的 过 程 中 ， 我 们 就 已 经 回答 了 第 二 个 
问题 ， 我 们 会 在 期 望 收益 超过 某 个 期 望 水 平 (通常 是 0) 时 设 定 国 值 。 让 我 们 来 仔细 探讨 
并 扩展 这 个 概念 。 


8.2 利润 曲线 


我 们 从 7.3 节 中 知道 了 如 何 计算 期 望 利润 ， 刚 刚 又 学 习 了 如 何 用 模型 来 对 实例 进行 排序 。 
把 以 上 两 种 思想 相 结 合 ， 就 可 以 以 曲线 的 形式 构建 出 各 种 体现 模型 性 能 的 可 视 化 图 像 。 每 
条 曲线 的 绘制 都 基于 这 样 一 种 效果 检验 : 如 果 按 顺序 把 一 系列 数据 点 设 为 分 类 器 的 分 类 财 
值 ， 那 么 分 类 器 会 把 数据 点 以 不 同 的 方式 分 类 ( 正 或 负 )。 在 按照 顺序 逐渐 降低 国 值 的 过 
程 中 ， 被 预测 为 正 的 实例 会 越 来 越 多 ， 而 被 预测 为 负 的 实例 会 越 来 越 少 。 每 个 阔 值 〈 即 每 
组 正 实 例 和 负 实 例 ) 都 对 应 一 个 混 靖 算 阵 。 从 前 面 的 章节 可 以 知道 ， 如 果 我 们 有 一 个 混淆 
矩阵， 也 知道 对 应 决策 的 成 本 和 收益 信息 ， 就 能 得 出 该 矩阵 对 应 的 期 望 值 。 


更 确切 地 说 ， 只 要 有 排序 分 类 器 ， 我 们 就 能 得 到 许多 实例 的 预测 分 数 ， 并 按照 分 数 将 其 降 
序 排 序 ， 然 后 测量 每 个 基于 所 选 连续 分 割 点 得 出 的 期 望 收 益 值 。 概 念 上 ， 这 相当 于 按 分 数 
将 列表 中 的 实例 降序 排序 ， 并 且 按 从 上 到 下 的 顺序 在 每 一 个 实例 后 记录 其 对 应 的 期 望 利 
润 。 在 每 一 个 分 割 点 处 ， 都 要 记录 列表 中 被 预测 为 正 的 实例 的 比例 和 对 应 的 收益 估计 值 。 
将 这 些 值 绘制 成 图 像 ， 就 得 到 了 利润 曲线 。 图 8-2 展示 了 三 条 这 样 的 利润 曲线 。 
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图 8-2: 三 种 分 类 器 的 利润 曲线 。 每 条 曲线 表示 随 着 目标 用 户 在 用 户 总 体 中 的 比例 增 大 ， 期 望 累 积 利 
润 的 变化 


图 8-2 是 基于 包含 1000 名 用 户 的 测试 数据 集 而 构建 和 绘制 的 ， 该 测试 集 也 可 以 被 认为 是 对 
之 前 进行 过 试销 售 的 人 群 的 一 小 部 分 随机 抽样 。( 在 解释 结果 时 ， 我 们 通常 会 关注 用 户 占 
整体 的 比例 ， 以 便 将 结果 推广 到 总 体 。) 在 每 条 曲线 上 ， 我 们 根据 某 个 模型 按照 接受 某 个 
优惠 活动 的 概率 由 高 到 低 对 用 户 排序 。 在 这 个 示例 中 ， 假 设 边际 利润 很 小 一 一 每 个 优惠 名 
额 预 留 和 推广 的 成 本 是 5 美元 ， 用 户 接受 优惠 后 的 收益 是 9 美元 ， 利 润 为 4 美元 。 则 其 对 
应 的 成 本 收益 矩阵 为 : 














p n 
Y $4 -$5 
N $0 $0 


从 曲线 中 可 以 看 到 ， 负 利润 有 时 (不 是 一 直 ) 还 会 出 现 负 利润 ， 这 取决 于 成 本 以 及 类 别 比 
率 。 负 利润 尤其 会 出 现在 利润 率 较 低 、 回 应 者 较 少 的 时 候 。 当 把 国 值 设 定 得 过 低 时 ， 模 型 
会 对 过 多 不 会 响应 的 用 户 发 出 促销 优惠 ， 从 而 导致 成 本 过 高 ”“， 因 此 曲线 会 显示 出 “赤字 ”。 


你 可 能 会 注意 到 ， 四 条 曲线 的 起 始点 和 终点 都 是 相同 的 。 这 一 点 应 该 很 容易 理解 ， 因 为 最 
































注 2: 为 简化 问题 ， 我 们 将 忽略 库存 及 其 他 现实 因素 ， 否 则 利润 的 计算 会 变 得 复杂 。 
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左 侧 没 有 用 户 被 视 为 目标 ， 所 以 没有 支出 和 收入 ; 而 最 右 侧 ， 因 为 所 有 的 用 户 都 是 目标 ， 
所 以 所 有 分 类 器 的 结果 都 相同 。 两 点 之 间 的 差别 则 取决 于 分 类 器 对 用 户 的 排序 情况 。 其 
中 随机 分 类 器 性 能 最 差 ， 因 为 它 选 择 响应 者 和 未 响应 者 的 概率 相同 。 这 些 被 测试 的 分 类 器 
中 ,分 类 器 2 在 对 前 50% 的 用 户 提供 优惠 时 ， 能 够 获取 最 高 200 美元 的 利润 。 那 么 ， 如 
果 你 仅 以 利润 最 大 化 为 目标 ， 并 且 有 充足 的 资源 可 利用 ， 你 就 应 该 用 这 个 分 类 器 给 用 户 打 
分 ， 然 后 把 前 50% (最 高 的 50%) 的 用 户 作为 优惠 对 象 。 

接 下 来 ， 考 虑 一 个 稍 有 不 同 但 十 分 常见 的 场景 一 一 预算 受 限 。 你 手头 的 可 用 资金 是 固定 
的 ， 在 恒利 之 前 ， 你 必须 慎重 考虑 如 何 支 配 这 些 资金 。 这 种 情况 在 营销 活动 中 很 常见 。 就 
像 前 面 所 说 的 那样 ， 你 还 是 想 针 对 那些 排序 较 靠 前 的 用 户 进行 营销 ， 但 现在 你 的 预算 有 
Bk >, 这 可 能 会 影响 你 的 策略 。 假 设 你 一 共有 10 万 名 用 户 , 营销 活动 的 预算 为 4 万 美元 , 你 
要 用 建 模 的 结果 ( 见 图 8-2 的 利润 曲线 ) 来 找 出 分 配 预 算 的 最 佳 方式 ， 那 么 该 怎么 做 呢 ? 
首先 ， 你 要 计算 出 你 能 发 出 多 少 份 优惠 。 如 果 每 份 优惠 花费 5 美元 ， 那 么 你 最 多 能 针对 
$40 000/$5 = 8000 名 客户 进行 营销 。 虽 然 你 仍旧 想 要 找 出 最 有 可 能 响应 的 客户 ， 但 是 不 同 
模型 对 客户 的 排序 也 不 相同 ， 这 次 营销 活动 该 用 哪 一 个 模型 呢 ? 8000 名 客户 是 整个 客户 
群 的 8%， 因 此 你 要 在 性 能 曲线 中 找到 x = 8% 的 位 置 。 在 这 个 点 上 ， 性 能 最 好 的 模型 是 分 
类 器 1， 因 此 你 该 选择 这 个 模型 来 对 整个 总 体 打分 ， 然 后 对 排序 靠 前 的 前 8000 名 客户 发 放 
优惠 。 

综 上 ， 通 过 这 个 示例 ， 我 们 知道 了 ， 预 算 限 制 不 仅 会 改变 操作 点 (从 总 体 实例 的 50% 变 到 
8%) ， 还 会 改变 对 排序 分 类 器 的 选择 。 


8.3 ROC 图 像 和 曲线 


利润 曲线 仅 在 你 对 所 使 用 的 分 类 器 的 假设 条 件 很 确定 的 前 提 下 才 适 用 。 而 收益 的 计算 中 有 
两 个 特别 值得 注意 的 关键 条 件 。 

(1) 类 的 先 验 概率 ， 就 是 目标 群体 中 正 实例 和 负 实 例 的 比例 ， 有 时 也 被 称 为 基础 比率 (通常 

指正 实例 的 比例 )。 回 想 一 下 公式 7-2， 它 对 pp) Fl p(n) 很 敏感 。 

(2) 成 本 和 收益 。 期 望 利润 对 成 本 收益 矩阵 中 各 单元 的 成 本 和 收益 的 相对 水 平 尤其 敏感 。 
如 果 类 的 先 验 概率 和 成 本 收益 的 估计 值 都 是 已 知 且 稳 定 的 ， 那 么 利润 曲线 对 模型 性 能 可 视 
化 来 说 可 能 是 一 个 不 错 的 选择 。 

然而 在 很 多 领域 中 ， 这 些 条 件 都 是 不 确定 或 不 稳定 的 。 比 如 在 坎 诈 检测 中 ， 其 诈 的 数量 
随时 间 和 地 点 的 改变 而 改变 (Leigh, 1995; Fawcett & Provost, 1997) ， 这 种 改变 会 影响 先 
验 概率 。 而 在 手机 用 户 流失 管理 示例 中 ， 营 销 活 动 的 预算 和 提供 优惠 的 成 本 不 同 ， 预 期 
成 本 也 会 不 同 。 
处 理 不 确定 因素 的 一 种 方法 是 ， 让 每 个 模型 生成 很 多 不 同 的 预期 利润 值 。 不 过 这 种 方法 有 
些 不 尽 如 人 意 ， 因 为 当 模型 、 类 的 先 验 概率 和 决策 成 本 组 合 起 来 时 问题 的 复杂 程度 也 会 加 
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注 3: 另 一 种 常见 情况 是 劳动 力 受 限 ， 与 预算 受 限 相 似 ， 因 为 你 用 于 解决 问题 的 可 分 配 资源 (财力 或 人 力 ) 
有 限 ， 所 以 你 想 “ 花 最 少 的 资源 ， 办 最 大 的 事 ”。 比 如 说 ， 因 为 你 手下 的 欺诈 分 析 师 有 限 ， 所 以 你 想 
让 他 们 处 理 可 能 性 最 大 的 疑似 欺诈 案件 。 



























































模型 性 能 的 可 视 化 | 163 





倍 。 对 于 分 析 师 来 说 ， 他 们 很 难 在 短 时 间 内 处 理 大 量 的 利润 曲线 ， 理 解 各 种 含义 ， 并 对 利 
益 相关 者 进行 解释 。 

还 有 一 种 处 理 不 确定 性 的 方法 ， 就 是 展示 整个 模型 性 能 概率 的 空间 ， 比 如 受 试 者 工作 特征 
(下 称 ROC) 图 像 (Swets, 1988; Swets, Dawes & Monahan, 2000; Fawcett, 2006) 。ROC 图 像 
是 分 类 器 的 二 维 图 像 ，x 轴 为 假 阳 性 比率 ，y 轴 为 真 阳 性 比率 ， 描 绘 的 是 分 类 器 在 收益 (A 
阳性 ) 与 成 本 ( 假 阳 性 ) 之 间 的 权衡 。 图 8-3 的 ROC 图 像 包含 从 A BES 个 分 类 器 。 
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图 8-3: ROC 空间 ，5 个 分 类 器 (A-E) 的 性 能 以 坐标 点 形式 绘制 在 图 中 








离散 分 类 器 是 一 个 只 会 输出 类 标签 (而 不 是 排序 ) 的 分 类 器 。 正 如 前 面 提 到 的 ， 每 个 这 样 
的 分 类 器 都 会 生成 混淆 矩阵 (由 真 阳 性 、 假 阳性 、 真 阴性 、 假 阴性 的 数字 和 比率 组 成 )。 
值得 注意 的 是 ， 虽 然 混 淆 矩阵 包含 了 四 个 数字 ， 但 是 我 们 其 实 只 需要 两 个 比率 真 阳性 比 
率 和 假 阴 性 比率 中 的 一 个 ， 以 及 假 阳 性 比率 和 真 阴性 比率 中 的 一 个 。 因 为 每 组 两 者 和 为 1， 
所 以 只 要 给 定 其 中 一 个 ， 就 能 求 出 另 一 个 。 通 和 常 我 们 会 选择 真 阳性 比率 (tp rate) 和 假 阳 
性 比率 (fp rate)。 为 了 保证 ROC 曲线 的 合理 性 ， 我 们 在 绘制 时 也 会 选择 这 两 个 比率 。 每 
个 离散 分 类 器 都 会 产生 一 个 ( 真 阳性 比率 , 假 阳 性 比率 ) 的 组 合 来 对 应 ROC 空间 中 的 一 个 
点 。 图 8-3 中 的 分 类 器 都 是 离散 分 类 器 。 这 里 值得 说 明 一 下 ， 真 阳性 比率 的 计算 只 需 用 到 
实际 为 正 的 实例 ， 而 假 阳 性 比率 的 计算 只 需 用 到 实际 为 负 的 实例 。 

































































虽然 记 清楚 真 阳性 比率 和 假 阳 性 比率 所 对 应 的 统计 量 ， 对 那些 不 常 处 理 这 些 
问题 的 人 来 说 可 能 会 比较 困难 ， 但 是 记忆 不 那么 正规 又 很 直观 的 称谓 就 会 简 
单 得 多 。 真 阳性 比率 有 时 也 叫 命中 率 ， 即 分 类 器 辨别 正确 的 、 实 际 为 正 的 实 
例 的 比例 。 假 阳性 比率 有 时 也 叫 误 警 率 ， 即 分 类 器 辨别 错误 的 、 实 际 为 负 
( 即 预测 为 正 ) 的 实例 的 比例 。 






































ROC 空间 中 有 几 个 坐标 点 需要 注意 : 左下 方 的 (0, 0) 代表 从 未 预测 到 正 实例 的 策略 ， 这 样 
的 分 类 器 不 会 犯 假 阳 性 的 错误 ， 但 也 不 会 出 现 真 阳性 的 情况 。 与 之 相反 的 是 无 条 件 预测 为 
正 的 策略 ， 即 右上 角 的 (1, 1)。 而 (0, 1) 代表 完美 分 类 ， 在 这 里 用 星 号 表示 。 将 (0, 0) 5 (1, 1) 
连接 起 来 的 对 角 线 代表 预测 类 别 的 方法 。 比 如 ， 如 果 某 分 类 器 在 一 半 情 况 下 会 随机 将 实例 
预测 为 正 ， 那 么 就 可 以 认为 该 分 类 器 能 正确 地 预测 一 半 正 实例 和 一 半 负 实例 ， 对 应 ROC 
空间 中 的 (0.5, 0.5);， 如 果 分 类 器 在 90% 的 情况 下 将 实例 预测 为 正 ， 那 么 就 可 以 认为 该 分 
类 器 能 正确 预测 90% 的 正 实 例 ， 但 是 假 阳 性 率 也 会 上 升 至 90%， 对 应 ROC 空间 中 的 (0.9, 
0.9)。 因 此 ， 随 机 分 类 器 在 ROC 空间 中 对 应 的 点 会 在 对 角 线 上 来 回 移动 ， 其 位 置 取决 于 分 
类 器 将 实例 预测 为 正 的 比率 。 为 了 使 点 从 对 角 线 转移 到 左上 三 角 区 域 ,分 类 器 必须 从 数据 
中 发 掘 出 一 些 信 息 。 图 8-3 中 ， 点 (0.6, 0.6) 处 的 分 类 器 E 几乎 是 随机 分 类 的 ， 可 以 说 它 在 
60% 的 情况 下 都 会 将 实例 预测 为 正 。 注 意 ,分 类 器 对 应 的 点 不 应 处 于 ROC 图 像 的 右 下 三 
角 区 域 中 ， 因 为 这 意味 着 分 类 器 的 预测 效果 比 随机 预测 还 要 差 。 


在 ROC 空间 中 ， 如 果 一 个 点 在 另 一 个 点 的 左上 方 (前 者 的 真 阳 性 比率 高 于 后 者 ， 同 时 假 
阳性 比率 不 低 于 后 者 ; 或 前 者 的 假 阳 性 比率 低 于 后 者 ， 同 时 真 阳性 比率 不 高 于 后 者 ， 或 两 
种 都 更 好 ) ， 则 前 者 优 于 后 者 。ROC 图 像 左 边 、 接 近 x 轴 的 分 类 器 较为 “保守 ”， 因 为 它们 
仅 在 有 足够 多 的 证 据 时 才 会 报警 (做 正 分 类 )， 所 以 它们 很 少 犯 假 阳 性 错误 ， 但 真 阳 性 率 
也 较 低 ， 图 像 右上 方 的 分 类 器 较为 “自由 ”， 因 为 它们 将 实例 预测 为 正 的 门槛 较 低 ， 所 以 
它们 几乎 能 把 所 有 的 正 实 例 预测 正确 ， 但 同时 假 阳 性 率 也 会 较 高 。 由 此 ， 在 图 8-3 中 ，A 
LLB RSF, 而 了 B 又 比 C 保守 。 因 为 许多 现实 领域 中 都 有 大 量 的 负 实 例 ( 见 7.1 中 “ 坏 的 正 
实例 与 无 害 的 负 实例 ”中 的 讨论 ) ， 所 以 图 中 最 左 侧 的 分 类 器 比 其 他 的 更 为 有 趣 。 在 负 实 
例 较 多 的 情况 下 ， 即 使 分 类 器 误 警 率 适 中 ， 情 况 也 有 可 能 失去 控制 。 排 序 模 型 会 在 ROC 
图 像 中 生成 一 系列 点 〈 连 成 一 条 曲线 )。 前 文 提 到 ， 设 置 阔 值 后 的 排序 模型 可 以 生成 离散 
(二 元 ) 分 类 器 : 如 果 分 类 器 的 输出 结果 超过 该 国 值 ， 那 么 结果 为 Y， 否 则 为 N。 每 个 国 
值 都 对 应 ROC 空间 中 的 一 个 点 ， 如 图 8-4 所 示 。 
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8-4: ROC 空间 中 的 每 个 点 都 对 应 一 个 混淆 矩阵 

















从 概念 上 讲 ， 我 们 可 以 按 分 数 对 实例 进行 分 类 ， 并 改变 国 值 (从 -oo 到 +o) ， 同 时 跟踪 | 
线 在 ROC 空间 中 的 移动 。 如 图 8-5 所 示 。 在 遇 到 正 实例 的 时 候 点 往 上 移动 (增加 真 阳 性 )， 
遇 到 负 实 例 时 往 右 移动 (增加 假 阳 性 )， 这 条 “曲线 ”实际 上 就 是 单个 测试 集 的 阶梯 函数 。 
如 果 数 据 量 足够 大 ， 曲 线 就 会 较为 平 请 。” 





















































注 4: 从 技术 上 讲 ， 如 果 在 一 次 运行 中 有 许多 实例 分 数 相同 ， 我 们 就 应 该 计算 一 下 整个 运行 过 程 中 正 实例 和 
负 实 例 的 个 数 ， 从 以 使 OC 曲线 呈 平 清 状 ， 而 不 是 方形 阶梯 状 。 
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混 清 对 应 的 ROC ROC 图 像 
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图 8-5: 根据 测试 集 数 据 构 建 ROC“ 曲 线 ”( 其 实 是 一 个 阶梯 图 ) 的 图 解 。 左 侧 的 实例 集 包 含 了 100 
个 正 实例 和 100 个 负 实 例 ， 模 型 给 每 个 实例 分 配 分 数 ， 并 将 它们 按 分 数 从 低 到 高 排序 。 构 
建 曲 线 时 ， 先 针对 底部 (所 有 实例 都 被 判断 为 N) 的 情况 构建 混 满 矩阵。 随 着 点 的 逐步 
上 移 ， 每 次 都 有 一 个 实例 从 N 行 移 到 Y 行 ， 从 而 得 到 新 的 混 满 和 矩阵 ， 而 每 个 混淆 矩阵 都 对 
应 ROC 空间 中 的 一 对 〈 假 阳性 比率 ， 真 阳性 比率 ) 组 合 


ROC 图 像 的 一 个 优点 是 可 以 把 分 类 器 的 性 能 与 分 类 器 的 使 用 场景 区 分 开 。 也 就 是 说 ， 分 
类 器 的 性 能 是 与 类 别 比 例 以 及 成 本 收益 互 不 影响 的 。 数 据 科 学 家 在 生成 分 类 器 的 时 候 ， 可 
以 在 ROC 图 像 中 绘制 其 性 能 的 对 应 点 ， 因 为 该 点 的 位 置 和 模型 的 相对 性 能 不 会 发 生 改变 。 
在 ROC KRF, 虽然 我 们 感 兴趣 的 区 域 可 能 会 随 着 成 本 、 收 益 以 及 数据 中 不 同类 别 比例 
的 改变 而 发 生变 化 ， 但 是 ROC 曲线 本 身 会 保持 不 变 。 

Stein (2005) 和 Provost & Fawcett (1997, 2001) 展示 了 如 何 组 合 分 类 器 运行 条 件 (类 的 先 
验 概率 和 惩罚 系数 )， 从 而 找到 ROC 曲线 中 我 们 感 兴趣 的 区 域 。 简 单 地 说 ， 我 们 可 以 把 关 
于 可 能 类 别 的 先 验 概率 的 阔 值 的 知识 与 关于 决策 的 成 本 收益 的 知识 结合 起 来 ， 从 而 描绘 一 
组 能 辨别 该 条 件 下 应 该 选择 哪个 (或 哪 几 个 ) 分 类 器 的 切线 。Stein (2005) 在 一 个 金融 案 
例 (贷款 违约 ) 中 展示 了 如 何 通过 这 种 方法 来 选择 模型 。 
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8.4 ROCHA THR 


ROC 曲线 下 面积 (AUC) 是 一 个 重要 的 统计 量 。 顾 名 思 义 ， 这 个 统计 量 指 的 是 分 类 器 曲 
线 下 ， 以 单位 正方 形 的 形式 表示 的 面积 ， 值 域 为 0 到 1。 虽然 ROC 曲线 比 这 个 面积 信息 量 
更 大 ， 但 是 当 我 们 需要 一 个 数字 来 概括 模型 性 能 ， 或 者 对 运行 条 件 一 无 所 知 时 ，AUC 这 个 
统计 量 更 加 有 用 。8.6 市 将 展示 AUC 统计 量 的 使 用 方法 ， 目 前 读者 只 需要 知道 ， AUC 是 
一 个 能 够 很 好 地 反映 分 类 器 预测 效果 的 统计 量 。 


技术 说 明 : AUC 与 秩 和 检验 等 价 。 后 者 是 统计 学 中 一 种 知名 的 排序 方 
法 (Wilcoxon, 1945)。 在 进行 极 小 的 代数 转换 后 ，AUC 还 与 基尼 系数 等 价 
(Adam & Hand, 1999; Stein, 2005)。 同 时 ， 这 两 个 指标 也 都 等 价 于 随机 选择 
的 正 实例 比 随机 选择 的 负 实 例 排序 靠 前 的 概率 。 








8.5 累积 响应 曲线 和 提升 曲线 


ROC 曲线 是 对 模型 的 分 类 性 能 、 类 概率 估计 性 能 和 评分 性 能 进行 可 视 化 的 常用 工具 。 但 
是 ， 如 果 你 刚刚 接触 这 些 概念 ， 对 这 一 切 都 不 熟悉 ， 那 么 ROC 曲线 其 实 并 不 是 最 直观 的 
可 视 化 工具 ， 对 于 最 应 该 理解 这 个 结果 的 企业 利益 相关 者 来 说 ， 尤 其 如 此 。 数 据 科学 家 应 
该 明白 ， 与 利益 相关 者 进行 清晰 的 交流 ， 不 仅 是 工作 中 的 一 项 基本 目标 ， 还 是 构建 正确 模 
型 (以 及 正确 地 建 模 ) 的 基础 。 因 此 ， 我 们 或 许 还 要 考虑 其 他 可 视 化 评估 框架 ， 虽然 它们 
可 能 没有 ROC 曲线 那样 多 的 优点 ， 但 是 更 直观 。( 对 企业 利益 相关 者 而 言 ， 最 重要 的 是 要 
明白 ， 那 些 为 了 交流 而 牺牲 的 理论 细节 有 时 也 很 重要 ， 因 此 在 特定 环境 下 ， 我 们 也 有 必要 
展示 一 下 比较 复杂 的 可 视 化 。) 

可 以 替代 ROC 曲线 的 一 个 常用 工具 是 “累积 响应 曲线 "， 虽 然 这 两 者 联系 密切 ， 但 是 后 者 更 
为 直观 。 累 积 响应 曲线 将 命中 率 (或 称 真 阳性 比率 ; y 轴 )， 即 被 正确 分 类 的 正 实例 的 比例 ， 
作为 目标 群体 占 总 体 比例 (x 轴 ) 的 函数 ， 因 此 ， 从 概念 上 来 讲 ， 当 沿 着 被 模型 降序 排列 
的 实例 列表 下 移 时 ， 被 覆盖 的 目标 群体 的 比例 也 在 逐渐 增 大 。 如 有 果 过 程 顺利 且 模型 性 能 
良好 的 话 ， 那 么 在 列表 项 端的 目标 群体 中 ， 实 际 为 正 的 实例 的 比例 将 高 于 实际 为 负 的 实 
例 比 例 。 与 ROC 曲线 相同 ， 累 积 响 应 曲线 图 像 中 的 对 角 线 x = y 也 代表 随机 性 能 。 在 这 
个 例子 中 ， 我 们 可 以 清楚 地 感觉 到 : 如 有 果 完 全 随机 地 选 定 20% 的 目标 实例 ， 那 么 这 其 中 
一 定 也 包含 了 20% 的 正 实例 。 任 何 位 于 对 角 线 上 方 的 分 类 器 都 比 随机 分 类 更 有 优势 。 


累积 响应 曲线 有 时 也 被 称 作 提升 曲线 ， 因 为 它 能 用 模型 曲线 (表示 模型 性 
能 ) 向 上 远离 对 角 线 (表示 随机 分 类 器 性 能 ) 的 程度 来 展示 模型 的 效果 相对 
于 随机 选择 的 提升 程度 。 但 下 文 将 继续 称 这 些 曲线 为 累积 响应 曲线 ， 因 为 
“提升 曲线 ”也 可 以 指 提升 度数 值 的 曲线 。 

































































直观 上 ， 分 类 器 的 提升 表示 的 是 它 相 对 随机 预测 结果 的 优势 。 提 升 度 指 分 类 器 在 列表 中 将 
正 实例 “提升 ”至 负 实 例 之 上 的 程度 ， 例 如 ， 假 设 一 个 列表 中 有 100 个 用 户 ， 其 中 有 一 半 
已 经 离开 公司 〈 正 实例 )， 另 一 半 仍 留 在 公司 〈 负 实例 )， 如 果 你 从 上 向 下 浏览 排序 列表 
并 停 在 中 间 位 置 上 (目标 群体 占 比 为 50%)， 那 么 在 浏览 过 的 上 半 部 分 数据 中 ， 你 认为 会 
有 多 少 正 实例 呢 ? 如 果 列 表 数 据 的 顺序 是 随机 的 ， 那 么 上 半 部 分 应 该 会 含有 一 半 正 实例 
(0.5)， 因 而 提升 值 是 0.5/0.5 = 1; 如果 数 据 由 有 效 的 排序 分 类 器 进行 了 排序 ， 那 么 列表 的 
上 半 部 分 就 会 包含 超过 一 半 的 正 实例 ， 从 而 使 提升 度 大 于 1， 如果 分 类 器 是 完美 的 ， 那 么 
上 半 部 分 就 会 包含 所 有 正 实例 (1.0)， 从 而 使 提升 度 为 1.0/0.5 = 2, 


图 8-6 描绘 了 4 个 样本 分 类 器 的 累积 响应 曲线 ， 图 8-7 则 展示 了 这 四 个 示例 的 提升 曲线 。 
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图 8-6: 四 个 分 类 器 示例 (A~D) 及 其 累积 响应 曲线 
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分 类 器 的 提升 度 





测试 实例 占 比 〈 按 分 数 降序 排序 ) 











图 8-7: 图 8-6 中 的 四 个 分 类 器 (A-D) 及 其 提升 曲线 


提升 曲线 的 值 其 实 是 累积 响应 曲线 在 给 定 x 点 处 的 值 除 以 对 角 线 (y = x) 在 该 点 的 值 。 提 
升 曲线 上 y= 1 时， 累积 响应 曲线 的 对 角 线 将 变 为 水 平 线 。 


有 时 你 会 听 到 类 似 “ 我 们 的 模型 有 2 倍 (或 2X) 提升 ”的 说 法 ， 这 表示 在 给 定 闵 值 的 情 
况 下 (通常 隐 去 不 提 )， 提 升 曲线 表明 模型 选 定 的 目标 群体 比 随机 选 定 的 目标 群体 要 好 一 
倍 。 在 累积 响应 曲线 上 ， 对 应 模型 的 真 阳 性 比率 是 随机 分 类 的 性 能 曲线 (对 角 线 ) 的 两 倍 
(也 可 以 按照 其 他 基线 计算 提升 )。 提 升 曲 线 的 y 轴 代表 提升 数值 ，x 轴 代 表 目 标 群 体 所 占 
比例 (与 累积 响应 曲线 的 x 轴 含 义 相 同 )。 


在 使 用 提升 曲线 和 累积 响应 曲线 时 必须 非常 谨慎 ， 因 为 目标 群体 中 正 实例 的 比例 有 时 是 未 
知 的 ， 或 在 测试 数据 中 没有 被 准确 代表 。 与 ROC 曲线 不 同 的 是 ， 这 两 个 曲线 需要 假设 测 
试 集中 的 目标 类 先 验 概率 与 要 应 用 模型 的 目标 群体 中 类 的 先 验 概率 相同 。 这 也 是 我 们 最 初 
提 到 的 简化 假设 之 一 ， 它 可 以 让 我 们 使 用 更 加 直观 的 可 视 化 工具 。 


举 个 例子 。 在 线 上 广告 中 ， 消 费 者 响应 某 一 条 广告 的 基础 比率 可 能 非常 小 ， 一 千 万 分 之 
— (1:10) 的 比率 也 很 常见 。 未 响应 者 与 响应 者 的 比例 为 1000 万 比 1 对 建 模 者 来 说 是 件 
很 麻烦 的 事情 ， 于 是 他 们 会 对 未 响应 者 降低 采样 ， 从 而 创建 更 为 平衡 的 数据 集 ， 以 便 建 模 
和 评估 。 这 种 做 法 在 用 ROC 曲线 来 对 分 类 器 进行 可 视 化 时 不 会 影响 结果 (因为 上 文 提 到 ， 
图 中 坐标 轴 仅 对 应 一 个 类 的 比例 )， 但 在 提升 曲线 和 累积 响应 曲线 中 却 不 然 一 一 虽然 曲线 
的 基本 形状 仍然 包含 着 大 量 的 信息 ， 但 是 坐标 轴 上 的 值 之 间 的 关系 会 失效 。 
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8.6 示例 : 用 户 流失 模型 的 性 能 分 析 


前 几 章 已 经 介绍 了 不 少 评 佑 方面 的 知识 ， 包 括 很 多 重要 的 评估 方法 和 评估 模型 中 的 各 种 问 
题 。 本 节 用 一 个 应 用 示例 研究 将 它们 联系 在 一 起 ， 来 展示 不 同 评估 方法 的 结果 。 这 个 示例 
依然 来 自 被 反复 提 到 的 手机 用 户 流失 问 题 ， 但 本 节 将 使 用 另 一 个 〈 比 前 面 章 节 中 更 为 复杂 
的 ) 流失 数据 集 ， 它 来 自 2009 KDD CUP 数据 挖掘 大 赛 (http://www.kddcup-orange.com/) 。 
在 前 面 的 示例 中 〈 见 表 3-2 和 图 3-18) ， 我 们 之 所 以 没有 用 到 这 个 数据 集 ， 是 因为 为 了 避 
免 泄 露 用 户 隐私 ， 一 些 属性 的 名 称 和 值 已 经 被 隐 去 。 因 此 ， 利 用 它 不 仅 意 义 不 大 ， 还 可 能 
会 对 讨论 造成 干扰 。 然 而 ， 我 们 可 以 用 清洗 过 的 数据 来 进行 模型 性 能 分 析 。 以 下 内 容 来 自 
该 网 站 : 

KDD Cup 2009 提供 了 一 个 用 法 国手 机 公司 Orange 的 大 型 营销 数据 库 来 预测 用 

户 行为 的 示例 ， 其 中 包括 预测 用 户 变更 供应 商 〈 用 户 流失 禾 购买 新 产品 或 服务 

(偏好 ) 或 购买 推荐 给 他 们 的 升级 版 本 或 附件 (追加 销售 ) 的 倾向 。 实 现 这 些 最 

实用 的 方法 是 ， 在 客户 关系 管理 系统 (CRM 系统 ) 中 利用 客户 信息 生成 每 个 客 

户 的 分 数 

分 数 ( 模型 的 输出 项 ) 是 对 全 部 实例 的 待 解 释 的 目标 变量 ( 即 流失 、 偏 好 或 追加 

销售 ) 的 一 种 评估 。 而 生成 分 数 的 工具 能 帮助 算出 给 定 总 体 的 量化 信息 。 我 们 通 

过 输入 描述 实例 的 变量 计算 分 数 ， 然 后 在 信息 系统 (IS ) 中 基于 不 同 场景 使 用 这 

些 分 数 ， 比 如 将 客户 关系 个 性 化 。 


由 于 数据 集 被 清洗 得 比较 彻底 ， 故 而 几乎 没有 值得 探讨 的 内 容 了 ， 但 在 这 里 还 是 要 提 一 下 
实例 偏 斜 的 问题 。 数 据 集 共 包含 47 000 个 实例 ， 其 中 7% 的 实例 为 流失 用 户 〈 正 实例 )， 
剩 下 的 93% 则 没有 流失 〈 负 实例 )。 这 样 看 来 ， 其 实数 据 集 的 偏 度 并 不 算 大 ， 但 是 出 于 后 
面 将 提 到 的 某 些 原因 ， 我 们 还 是 有 必要 提 一 下 。 
需要 强调 的 是 ， 这 样 做 既 不 是 为 了 提出 解决 问题 的 好 方法 ， 也 不 是 为 了 表明 哪个 模型 效果 
更 好 ， 而 只 是 想 把 这 个 情景 当 作 检 验 模型 评估 思想 的 平台 ， 而 且 我 们 并 没有 花费 什么 功夫 
来 调整 模型 性 能 。 我 们 将 训练 和 测试 下 面 几 个 模型 : 分 类 树 、 逻 辑 回归 和 最 近邻 模型 ， 还 
会 用 到 一 个 被 称 作 朴素 贝 叶 斯 的 简单 贝 叶 斯 分 类 器 〈 第 9 章 会 介绍 它 )。 本 市 不 会 介绍 模 
型 的 细节 ， 所 有 的 模型 都 是 性 能 特征 不 同 的 “黑箱 ”。 我 们 将 用 前 几 章 介绍 的 评估 技术 和 
可 视 化 技术 来 理解 它们 的 特征 。 
先 从 一 种 非常 简单 的 评估 讲 起 : 先 用 整个 数据 集训 练 模 型 ， 再 用 同一 个 数据 集 进行 测试 。 
我 们 也 会 测量 模型 的 简单 分 类 准确 率 。 结 果 如 表 8-1 所 示 。 
表 8-1: 用 完整 的 KDD Cup 2009 用 户 流失 问题 

训练 和 测试 的 四 个 分 类 器 的 准确 率 














































































































模 型 准确 率 
分 类 酌 95% 
逻辑 回归 93% 

k- 最 近邻 100% 
朴素 贝 叶 斯 76% 
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这 里 有 几 个 显著 的 特点 。 首 先 ， 模 型 性 能 分 布 很 广 ， 从 76% 到 100%。 另 外 ， 由 于 数据 集 的 基 
础 比率 是 93%， 因 而 任何 分 类 器 的 最 小 准确 率 至 少 要 大 于 该 数值 。 但 是 奇怪 的 是 ， 朴 素 贝 叶 
斯 的 性 能 结果 远 小 于 该 数值 。 而 大 最 近邻 分 类 器 的 准确 率 达 到 了 100%， 性 能 好 得 让 人 生 疑 。” 
不 过 ， 模 型 的 测试 是 在 训练 集 上 进行 的 ， 现 在 (学 习 过 第 5 章 之 后 ) 你 已 经 知道 这 样 的 数 
字 并 不 可 靠 ， 甚 至 完全 无 意义 ， 它 更 像 是 反映 分 类 器 能 在 多 大 程度 上 记忆 (过 拟 合 ) 训练 
数据 的 指标 。 因 此 我 们 不 必 深 入 研究 这 些 数 字 ， 而 应 该 用 相互 独立 的 训练 集 和 测试 集 重 新 
评估 模型 。 尽 管 可 以 简单 地 把 数据 集 分 成 两 半 ， 但 在 这 里 我 们 选用 5.6 节 中 的 交叉 验证 方 
法 ， 因 为 采用 这 个 方法 不 仅 能 对 数据 集 进 行 适当 划分 ， 还 能 对 模型 结果 的 变化 进行 度量 。 
结果 如 表 8-2 所 示 。 

表 8-2: 10 重 交叉 验证 后 ， 四 个 分 类 器 应 用 于 KDD Cup 

2009 用 户 流 失 问 题 时 的 准确 率 和 AUC 值 



























































模 型 准确 率 AUC 

分 类 树 91.8 + 0.0 0.614 + 0.014 
逻辑 回归 93.0 + 0.1 0.574 + 0.023 
k- 最 近邻 93.0 + 0.0 0.537 + 0.015 
朴素 贝 叶 76.5 + 0.6 0.632 + 0.019 





表格 中 的 每 个 数值 都 是 10 重 交 叉 验 证 的 均值 加 减 CL”) 标准 差 的 形式 。 其 中 标准 差 可 
以 认为 是 一 种 “合理 性 检查 ”: 过 大 的 标准 差 意 味 着 测试 结果 很 不 稳定 ， 这 可 能 是 由 各 种 
问题 导致 的 ， 比 如 数据 集 过 小 ， 或 者 模型 与 问题 的 一 部 分 不 匹配 。 

所 有 准确 率 都 有 明显 下 降 ， 朴 素 贝 叶 斯 除外 ( 它 依 旧 低 得 古怪 )。 因 为 模型 的 标准 差 皆 比 
均值 小 得 多 ， 所 以 模型 性 能 的 标准 差 不 大 ， 而 这 是 我 们 希望 看 到 的 情况 。 

最 右边 一 栏 中 是 ROC 曲线 下 面积 值 (通常 简称 为 AUC)。8.4 节 简 要 讨论 了 AUC 测度 ， 
我 们 知道 这 是 一 种 很 好 的 关于 评估 分 类 器 预测 效果 的 统计 量 ， 值 域 为 0 到 1。AUC 为 0.5 
意味 着 模型 是 随机 预测 (分 类 器 完全 无 法 区 分 正 实例 和 负 实 例 )，AUC 为 1 则 意味 着 分 类 
器 能 够 完美 区 分 二 者 。 而 准确 率 就 不 是 一 个 非常 恰当 的 度量 方法 ， 其 原因 之 一 是 当 数 据 集 
偏 斜 时 ， 这 个 指标 会 使 人 误解 ， 正 如 这 一 节 讨 论 的 示例 所 示 〈 负 实例 占 93% 而 正 实例 只 

7% 的 情况 )。 


我 们 曾 在 5.3 节 中 介绍 了 拟 合 曲线 ， 并 将 其 作为 检验 模型 是 否 存在 过 拟 合 的 方法 。 图 8-8 
展示 了 根据 用 户 流失 问题 构建 的 分 类 树 模型 对 应 的 拟 合 曲线 。 拟 合 曲线 的 基本 思想 是 ， 模 
型 越 复杂 ， 它 对 数据 的 拟 合 就 越 接 近 ， 但 到 了 某 个 点 ， 模 型 会 开始 只 单纯 记忆 特定 训练 集 
的 特征 ， 而 不 是 学 习 总 体 的 普遍 特征 。 拟 合 曲线 描绘 的 是 模型 复杂 度 (本 例 中 指 树 的 节点 
数 ) 与 模型 的 性 能 测度 (本 例 中 指 AUC)， 后 者 由 两 个 数据 集 (训练 数据 集 和 单独 的 保留 
数据 集 ) 计算 得 出 ， 当 保留 数据 集 上 模型 的 性 能 开始 下 降 时 ， 过 拟 合 就 产生 了 。 图 8-8 的 
确 符合 这 种 一 般 规 律 。 "分 类 树 的 确 存 在 过 拟 合 问题 ， 其 他 模型 可 能 也 一 样 。 图 中 “甜蜜 
点 ”出 现在 节点 数 为 100 处 ， 超 过 该 数值 时 ， 模 型 在 保留 数据 集 上 的 性 能 就 会 下 降 。 
























































































































































TES: 虽然 乐观 是 好 事 ， 但 根据 数据 挖掘 的 经 验 法 则 ， 在 现实 问题 中 任何 完美 的 结果 都 不 可 信 。 
注 6: 注意 , x 轴 做 了 对 数 化 处 理 ， 因 此 图 右 侧 看 起 来 比较 拥挤 。 
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图 8-8: 根据 用 户 流失 数据 构建 的 分 类 树 的 拟 合 曲线 ， 其 中 ROC 曲线 下 面积 (AUC) 随 模型 复杂 度 
的 改变 而 改变 。 训 练 数据 集 上 模型 的 性 能 (上方 的 曲线 ) 持续 提升 ， 而 保留 数据 集 上 模型 的 
性 能 先 达 到 顶峰 ， 随 即 下 降 


请 回顾 一 下 表 8-2 中 模型 的 比较 指标 ， 因 为 这 些 值 在 保留 数据 集 上 做 了 合理 谨慎 的 评估 ， 
所 以 比较 可 靠 。 然而， 这 里 面 也 确实 存在 一 些 问题 。 关 于 AUC 的 值 有 两 点 很 值得 讨论 。 
一 点 是 ， 这 些 模型 的 AUC 值 都 一 般 。 其 实 这 在 实际 应 用 场景 中 并 不 少见 ， 这 或 是 因为 数 
据 集中 可 挖掘 的 信息 很 少 ， 或 是 因为 数据 科学 问题 在 较为 简单 的 问题 解决 之 后 才 构 建 起 
来 。 由 于 用 户 流失 问题 比较 复杂 ， 因 而 模型 的 AUC 值 较 低 并 不 奇怪 。 即 使 AUC 的 评分 一 
般 ， 模 型 解决 商业 问题 的 结果 也 可 能 会 很 好 。 

第 二 个 值得 关注 的 点 是 朴素 贝 叶 斯 模型 。 如 表 8-2 所 示 ， 在 这 组 模型 中 ， 它 的 准确 率 最 低 ， 
AUC 值 却 最 高 ， 这 是 为 什么 呢 ? 请 比较 一 下 朴素 贝 叶 斯 模型 (AUC 值 最 高 而 准确 率 最 低 
的 ) 的 混淆 和 矩阵 和 应 用 于 同一 数据 集 的 最 近邻 (AUC 值 最 低 而 准确 率 最 高 ) 模型 的 混 
消 和 矩阵 。 下 面 是 朴素 贝 叶 斯 模型 的 混 请 矩阵 。 

p n 
Y 127(3%) 848 (18%) 
N 200(4%) 3518 (75%) 
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下 面 是 应 用 于 同一 数据 集 的 大 Spe A EL Ta EP: 
p n 
Y 3(0%) 15 (0%) 


N 324 (7%) 4351 (93%) 


可 以 看 出 ,大 最 近邻 模型 几乎 没有 预测 到 流失 用 户 ， 因 为 Y 列 几乎 为 空 。 换 名 话说 ， 这 个 
模型 更 像 一 个 基础 比率 分 类 器 ， 总 准确 率 恰 好 约 为 93% (基础 比率 )。 然 而 朴素 贝 叶 斯 分 
类 器 犯 的 错误 更 多 〈 因 此 准确 率 更 低 ) ， 但 能 够 辨别 出 更 多 的 流失 用 户 。 图 8-9 展示 了 交叉 
验证 过 程 中 一 个 典型 折 县 的 ROC 曲线 ， 注 意 ， 这 里 对 应 朴素 贝 叶 斯 模型 和 分 类 树 模 型 的 
曲线 比 其 他 曲线 更 为 “弯曲 ”“， 这 表示 两 者 有 着 预测 优势 。 


























受 试 者 分 类 特征 (ROC) 


真 阳 性 比率 





” 分 类 树 - 第 5 个 折叠 (ROC 面 积 =0.61) 
-一 逻辑 回归 -第 5 个 折 (ROC 面 积 =0.58) 
~ ~ 大 最 近邻 -第 5 个 折 全 (ROC 面积 =0.51) 


| 素 贝 叶 斯 -第 5 个 折叠 (ROC 面 积 =0.63) 
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8-9: 预测 用 户 流失 问题 的 分 类 器 在 交叉 验证 的 一 个 折 硬 中 的 ROC 曲线 


正如 前 面 所 提 到 的 ， 虽 然 ROC 曲线 有 许多 非常 好 的 技术 性 质 ， 但 是 不 容易 理解 ， 像 “ 弯 
曲 ” 程 度 和 相对 预测 优势 就 很 难 用 肉眼 识别 。 因 此 ， 提 升 曲线 和 利润 曲线 有 时 更 加 实用 ， 
下 面 我 们 将 对 这 两 个 指标 进行 分 别 介 绍 。 

因为 提升 曲线 有 着 不 需 投 入 成 本 的 优势 ， 所 以 我 们 先 从 它 讲 起 ， 请 看 图 8-10。 
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图 8-10: 用 户 流失 问题 的 提升 曲线 


这 些 曲线 均 根 据 10 重 交 又 验证 的 结果 取 了 均值 ， 它 们 通常 很 早 达 到 最 高 值 ， 然 后 逐渐 减 
小 到 随机 性 能 处 (提升 度 = 1)。 分 类 树 模 型 和 杆 素 贝 叶 斯 的 性 能 都 非常 好 ， 分 类 树 模 型 在 


目标 群体 比例 小 于 等 于 25% 时 占 优势 ， 之 后 朴素 贝 叶 斯 模型 更 占 优势 。- 最 近邻 和 逻辑 回 





归 模型 则 性 能 相对 较 差 ， 且 没有 占 优势 的 区 域 。 通 过 这 张 图 像 可 以 知道 ， 如 有 果 目 标 群 体 的 
比例 小 于 等 于 25%， 那 么 我 们 应 选择 分 类 树 模 型 ， 否 则 应 选择 村 素 贝 叶 斯 模型 。 由 于 提升 
曲线 对 类 比例 比较 敏感 ， 因 此 ， 如 果 流 失 用 户 和 未 流失 用 户 的 比例 改变 ， 那 么 这 些 曲 线 也 





会 随 之 改变 。 
有 关 组 合 分 类 器 的 一 则 说 明 








在 观察 这 些 曲线 时 ， 你 可 能 会 问 :“ 如 果 分 类 树 模 型 在 目标 群体 比例 小 于 等 
于 25% 时 最 好 ， 之 后 朴素 贝 叶 斯 模型 最 好 ， 那 么 为 什么 不 在 前 25% 时 选用 
前 者 ， 然 后 换 成 后 者 呢 ? ”这 是 个 好 想法 ， 但 这 样 你 可 能 无 法 充分 利用 这 两 
种 分 类 器 。 简 单 地 说 ， 是 因为 两 者 的 顺序 不 同 ， 所 以 简单 地 各 选择 两 者 中 的 
一 部 分 并 不 能 达到 最 优 结果 。 评 估 曲 线 仅 对 单个 模型 有 效 ， 而 如 果 将 模型 组 
合 混 用 ， 它 就 不 再 起 作用 了 。 

但 我 们 可 以 有 原则 地 将 分 类 器 进行 组 合 ， 从 而 使 组 合 后 的 分 类 器 的 性 能 超过 
任何 单个 分 类 器 。 我 们 把 这 样 的 组 合 叫 作 “和 集成"，12.5 节 将 对 其 进行 讨论 。 
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提升 曲线 虽然 能 够 展示 每 个 模型 的 相对 优势 ， 但 并 不 能 展示 每 个 模型 带 来 的 收益 ， 甚 至 不 
能 展示 是 否 会 取得 收益 。 想 要 实现 后 两 个 需求 ， 就 要 使 用 利润 曲线 ， 因 为 利润 曲线 的 假设 
包含 成 本 收益 ， 并 且 能 展示 其 期 望 值 。 
请 暂时 名 略 手 机 用 户 流失 问题 中 的 细节 (将 在 第 11 章 继续 讨论 )。 为 了 让 数据 集 更 加 有 
趣 ， 我 们 将 制作 两 套 有 关 成 本 收益 的 假设 。 第 一 种 情况 下 ， 假 设 每 份 优 惠 的 成 本 是 3 美 
元 、 毛 收益 为 30 美元 ， 因 此 真 阳性 实例 的 净利 润 是 27 美元 ， 假 阳性 实例 的 净 损 失 是 3 美 
元 。 这 种 情况 下 利润 率 为 9 : 1， 其 利润 曲线 如 图 8-11 所 示 。 分 类 树 模 型 对 最 高 的 国 值 而 
言 是 最 合适 的 ， 而 朴素 贝 叶 斯 模型 则 在 剩 下 的 冰 值 上 占 优势 。 这 种 情况 下 ， 最 大 收益 在 目 
标 群 体 约 占 总 体 的 20% 时 实现 。 
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图 8-11; 根据 用 户 流失 问题 构建 的 4 个 分 类 器 的 利润 曲线 ， 假 设 收益 与 成 本 之 比 为 9 : 1 


在 第 二 种 情况 下 ， 假 设 每 份 优惠 的 成 本 仍 为 3 美元 (因此 假 阳 性 成 本 未 改变 )， 但 是 毛 收 
益 提 升 至 39 美元 ， 因 此 真 阳 性 的 净利 涧 提升 到 了 36 美元 ， 利 润 率 为 12 : 1， 则 利润 曲线 
如 图 8-12 所 示 。 你 可 能 已 经 预料 到 了 ， 这 种 情况 下 的 最 大 收益 比 前 一 种 的 更 高 。 更 重要 的 
是 ， 它 能 够 展示 不 同 的 利润 最 大 值 ， 其 一 是 分 类 树 模 型 在 目标 群体 占 20% 时 达到 的 ， 其 二 
是 朴素 贝 叶 斯 模型 在 目标 群体 占 35% 时 达到 的 ， 后 者 比 前 者 略 高 。 然 而 ， 在 两 幅 图 中 ， 分 
类 树 模 型 和 逻辑 回归 模型 的 交叉 点 出 现在 同一 个 位 置 〈 约 在 目标 群体 占 25% 时 )。 这 说 明 
了 利润 曲线 对 成 本 收益 的 特定 假设 的 敏感 性 。 
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图 8-12: 根据 用 户 流失 问题 构建 的 4 个 分 类 器 的 利润 曲线 (SS 8-11 相 比 ) 假设 利润 率 更 高 , 为 12 : 1 


本 市 结 束 之 前 ， 需 要 再 强调 一 下 ， 展 示 这 些 图 像 仅 仅 是 为 了 阐述 模型 评估 的 不 同 技术 。 我 
们 既 疫 有 花 时 间 去 调整 模型 的 归纳 方法 ， 也 没有 对 这 些 模型 的 优 缺 点 及 其 是 否 适用 于 用 户 
流失 预测 问题 下 结论 ， 而 只 是 慎重 地 计算 了 一 系列 分 类 器 的 性 能 ， 以 阐述 这 些 图 像 是 怎样 
比较 这 些 分 类 器 的 。 


8.7 小结 


数据 科学 家 工作 中 一 个 非常 重要 的 部 分 就 是 对 模型 进行 恰当 评估 ， 并 且 把 评估 结果 传达 给 利 
益 相 关 者 。 虽 然 做 好 这 项 工作 需要 大 量 经 验 ， 但 是 为 了 减少 意外 情况 并 且 满 足 所 有 相关 人 士 
的 期 望 ， 这 项 工作 又 十 分 关键 。 而 模型 结果 可 视 化 是 评估 任务 中 重要 的 一 部 分 。 


在 建 模 的 时 候 ， 我 们 可 能 很 有 必要 ， 甚 至 是 必须 ， 通 过 多 种 方式 来 调整 训练 样本 ， 但 在 评 
估 模 型 的 时 候 ， 却 必须 选择 能 够 反映 原始 总 体 分 布 的 数据 集 ， 只 有 这 样 ， 才 能 保证 模型 结 
果 反映 出 真实 的 结果 。 

如 果 决 策 的 成 本 和 收益 能 被 明确 规定 ， 那 么 数据 科学 家 就 可 以 针对 每 个 模型 计算 每 个 实例 
的 期 望 成 本 ， 然 后 选择 拥有 最 优 值 的 模型 。 一 些 情况 下 ， 基 本 的 利润 图 像 足以 比较 各 模型 
在 一 系列 条 件 下 的 优 劣 。 这 些 图 像 对 欠缺 数据 科学 背景 的 利益 相关 者 来 说 很 好 理解 ， 因 为 
它们 把 模型 性 能 用 基本 “底线 ”"， 即 成 本 或 收益 的 形式 表示 了 出 来 。 
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收益 图 像 的 一 个 缺点 是 ， 它 要 求 模型 的 运行 条 件 已 知 且 明确 ， 然 而 ， 在 许多 现实 问题 中 ， 
运行 条 件 并 不 准确 或 会 随时 改变 ， 于 是 数据 科学 家 面临 着 大 量 的 不 确定 性 问题 。 这 种 情况 
下 ， 其 他 图 像 会 更 占 优势 。 如 果 成 本 和 收益 无 法 明确 ， 但 类 别 比 例 不 大 会 发 生 改变 ， 那 么 
我 们 通常 会 选用 累积 响应 曲线 或 提升 曲线 ， 两 者 都 能 展示 分 类 器 的 相对 优势 ， 而 且 不 受 优 
势 的 值 (货币 价值 等 ) 的 影响 。 

最 后 ，ROC 曲线 也 是 一 种 重要 的 可 视 化 工具 。 虽 然 使 用 者 需要 有 一 定 经 验 才能 较 好 地 解读 
它 ， 但 它 能 将 模型 性 能 与 其 运行 条 件 分 离 ， 从 而 表现 出 每 个 模型 所 做 的 权衡 。 


机 器 学 习 领 域 和 数据 挖掘 领域 中 的 大 量 工作 都 涉及 通过 比较 分 类 器 来 证 明 学 习 算 法 的 优 
越 性 。 因 此 ， 介 绍 分 类 器 比较 方法 的 文章 有 很 多 。 如 果 读 者 感 兴趣 ， 那 么 不 妨 从 Thomas 
Dietterich (1998) 的 文章 “Approximate Statistical Tests for Comparing Supervised Classification 

































































Learning Algorithms” FMRE Evaluating Learning Algorithms: A Classification Perspective 
(Japkowicz & Shah, 2011) 读 起 。 
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证 据 和 概率 


基本 概念 : 根据 贝 叶 斯 法 则 对 证 据 进行 显 式 组 合 ; 基于 条 件 独 立 假设 进行 概率 推理 
示例 方法 : 朴素 贝 叶 斯 分 类 ; 证 据 提 升 度 


到 目前 为 止 ， 本 书 已 经 探讨 了 好 几 种 方法 ， 它 们 都 可 以 用 数据 得 出 实例 的 某 些 未 知 量 ， 比 
如 对 实例 的 分 类 。 现 在 本 书 要 探讨 另 一 种 这 样 的 方法 。 你 可 以 把 你 对 实例 的 了 解 视 作 支持 
或 反对 不 同 目标 变量 值 的 证 据 ， 而 对 实例 的 了 解 则 可 以 表示 为 实例 的 特征 。 如 果 你 知道 每 
个 特征 所 提供 的 证 据 的 强度 ， 那 么 就 能 应 用 原则 性 方法 ， 从 概率 上 合并 证 据 ， 从 而 得 到 有 
关 目 标 变 量 值 的 结论 。 证 据 的 强度 将 根据 训练 数据 确定 。 


9.1 示例 : 向 线 上 目标 用 户 投放 广 告 


为 了 便于 说 明 ， 请 考虑 分 类 的 另 一 种 商业 应 用 一 一 根据 用 户 浏 览 过 的 页 面 ， 对 目标 用 户 投 
放 线 上 展示 广告 。 作 为 消费 者 的 我 们 ， 已 经 对 网 页 上 貌似 免费 的 大 量 信息 和 服务 习 以 为 
常 。 当 然 ， 所 谓 的 “免费 ”往往 建立 在 线 上 广告 存在 (或 很 有 希望 带 来 ) 收益 的 基础 上 ， 
这 与 广播 电视 的 “免费 ”大 同 小 异 。 此 处 考虑 的 是 展示 广告 ， 即 出 现在 我 们 正在 阅读 或 消 
费 的 网 页 的 顶部 、 两 侧 或 底部 的 广告 。 


展示 广告 与 搜索 广告 (比如 ， 展 示 在 谷歌 搜索 结果 中 的 广告 ) 不 同 。 两 者 的 一 个 重要 区 别 
























































EF: 在 大 多 数 页 面 中 ， 用 户 通 常 不 会 输入 任何 与 他 真正 想 找 的 内 容 有 关 的 文字 。 因 此 ， 




















我 们 需要 基于 其 他 类 型 的 推断 来 判断 一 支 广告 的 目标 用 户 。 过 去 的 儿童 已 经 探讨 过 一 种 推 
断 方法 : 通过 实例 的 特征 值 来 推断 其 目标 变量 值 。 因 此 ， 我 们 可 以 将 该 技术 用 于 推断 某 个 
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用 户 是 否 对 某 个 广告 感 兴趣 。 本 章 将 介绍 看 待 此 问题 的 另 一 种 方法 ， 该 方法 不 但 广泛 适 





日， 而 且 非 常 易于 应 用 。 





先 让 我 们 更 精确 地 定义 一 下 这 个 精准 广告 的 问题 。 实 例 是 什么 ?目标 变量 是 什么 ? 特征 又 
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是 什么 ?如 何 获取 训练 数据 ? 

假设 我 们 在 为 一 家 大 型 内 容 供应 商 (“ 出 版 商 ") 工作 ， 该 供应 商 包含 的 内 容 种 类 繁多 ， 拥 
有 许多 线 上 用 户 ， 且 有 许多 机 会 可 将 广告 展示 给 这 些 用 户 。 比 如 ， 雅 虎 (Yahoo!) 就 拥有 
大 量 由 广告 支持 的 网 页 “资产 ”， 或 者 说 不 同 的 “内 容 块 "。 另 外 ， 目 前 〈 本 书 完成 前 )， 
雅虎 已 同意 收购 Tumblr， 一 个 包含 超过 1 亿 个 博客 和 500 亿 余 篇 博文 的 博客 平台 。 其 中 每 
一 个 博客 都 可 以 视 作 为 感 兴趣 的 用 户 提 供 信息 的 “内 容 块 "。 与 之 相似 ，Facebook 用 户 留 
下 的 每 一 个 “ 赞 ”也 可 以 视 为 体现 用 户 喜 好 的 证 据 ， 这 同样 有 助 于 精准 投放 广告 。 

为 简化 问题 ， 假 设 有 一 个 广告 活动 ， 需 要 针对 一 些 访问 我 们 网 站 的 线 上 用 户 进行 投放 。 该 
广告 的 主题 是 高 档 连 锁 酒 店 Luxhote， 目 的 是 让 人 们 来 订房 间 。 以 前 我 们 开展 过 一 次 活动 ， 
当时 随机 选择 了 线 上 用 户 。 而 现在 我 们 想 有 针对 性 地 投放 广告 ， 以 期 花 在 广告 曝光 量 上 的 
单位 资金 能 带 来 更 多 的 订单 。 

因此 ， 我 们 把 每 个 用 户 视 作 一 个 实例 ， 而 目标 变量 则 为 “该 用 户 是 否 在 观看 Luxhote 广告 
后 一 周 内 预订 了 Luxhote 的 房间 ”。 借 助 神奇 的 浏览 器 cookie’, itt Luxhote 合作 ， 可 以 
观察 哪些 用 户 订 了 Luxhote 的 房间 。 为 便于 训练 数据 ， 我 们 把 每 个 用 户 的 该 目标 变量 设 为 
二 值 型 。 在 实际 应 用 中 ， 我 们 将 会 估计 用 户 在 观看 广告 后 订房 的 概率 ， 然 后 根据 预算 情 
况 ， 选 择 概率 最 高 的 那些 用 户 作 为 目标 。 

还 有 一 个 关键 问题 有 待 解 决 : 用 于 描述 用 户 的 特征 是 什么 ?” 只 有 有 了 这 些 特征 ， 才 能 辨别 
出 那些 更 优质 的 Luxhote 济 在 客户 。 对 本 例 而 言 ， 我 们 要 通过 浏览 器 cookie 或 其 他 途径 ， 
用 某 用 户 浏览 过 RA W) 的 一 系列 内 容 块 来 对 其 进行 描述 。 内 容 的 类 型 有 很 多 ， 包 
括 金 融 、 体 育 、 娱 乐 和 美食 博客 等 。 我 们 可 以 选择 几 千 个 热度 很 高 的 内 容 块 ， 也 可 以 选择 
上 亿 个 ， 我 们 相信 这 些 内 容 里 的 一 部 分 (比如 金融 类 博客 ) 更 容易 被 Luxhote 的 优质 潜在 
用 户 访问 ， 另 一 部 分 则 可 能 性 较 低 〈 比 如 ， 拖 拉 机 拉力 赛 粉丝 网 页 ) 。 


然而 ， 在 本 例 中 ， 我 们 并 不 想 依赖 这 种 对 内 容 的 假设 ， 也 没有 手动 佑 计 每 个 内 容 块 证 据 可 
能 性 的 资源 。 况 且 ， 人 类 虽然 能 很 好 地 用 知识 和 常识 辨别 证 据 支持 结论 还 是 反对 结论 ， 但 
是 在 准确 估计 证 据 强度 方面 奇 差 无 比 。 而 我 们 希望 历史 数据 不 仅 能 用 于 判断 证 据 的 方向 
(支持 或 反对 )， 还 能 用 于 估计 证 据 的 强度 。 接 下 来 ， 本 章 将 介绍 一 个 适用 范围 极 广 的 框 
架 ， 它 不 只 适用 于 证 据 评 估 ， 也 适用 于 结合 证 据 以 估计 类 成 员 可 能 性 (此 处 指 用 户 在 观看 
广告 后 订房 的 可 能 性 )。 

事实 证 明 ， 许 多 问题 都 与 该 示例 的 模式 相符 合 : 在 分 类 或 类 概率 估计 问题 中 ， 每 个 实例 都 
由 一 组 证 据 描 述 ， 而 这 些 证 据 可 能 提取 自 一 个 很 大 的 、 包 含 所 有 可 能 证 据 的 集合 。 举 个 例 
子 ， 文 本 文档 分 类 就 完全 符合 该 模式 (第 10 章 将 探讨 ) 。 每 篇 文档 都 是 一 组 单词 的 集合 ， 
而 这 些 单词 来 自 一 个 庞大 的 词汇 表 。 每 个 单词 可 能 都 会 提供 一 些 支 持 或 反对 分 类 的 证 据 ， 
而 我 们 需要 将 这 些 证 据 结 合 起 来 。 接 下 来 要 介绍 的 技术 正 是 许多 垃圾 邮件 检测 系统 所 使 用 
的 : 一 封 电子 邮件 即 一 个 实例 ， 其 目标 类 别 分 为 是 垃圾 邮件 和 不 是 垃圾 邮件 ， 而 其 特征 则 
是 邮件 中 的 单词 和 符号 。 



























































































































































注 1: 广告 曝光 量 指 的 是 广告 展示 在 页 面 上 的 数量 ， 不 考虑 用 户 是 否 点 击 它 。 
注 2: 浏览 器 会 与 所 访问 的 站 点 交换 少量 信息 (BI “cookie”) 并 存储 站 点 特有 的 信息 ， 以 便 以 后 访问 同一 
站 点 时 直接 提取 。 
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9.2 根据 概率 合并 证 据 


下 文 含有 较 多 数学 内 容 
为 探讨 根据 概率 合并 证 据 的 思想 ， 本 书 需 要 引入 一 些 概率 记号 。 读 者 无 须 掌 
te (或 记 住 ) 概率 论 的 知识 ， 因 为 这 些 记 号 非常 直观 ， 而 本 书 的 讨论 也 不 会 
超出 基本 概念 的 范围 。 这 些 记号 能 使 本 书 的 讲述 更 加 精确 。 下 文 的 数学 知识 
起 来 可 能 较 多 ， 但 你 会 发 现 它们 其 实 都 很 简单 。 






























































我 们 关注 的 是 用 户 在 观看 广告 后 订房 的 概率 之 类 的 量 。 而 实际 上 ， 我 们 需要 更 明确 一 些 。 
用 户 是 特定 的 吗 ” 还 是 任意 用 户 都 可 以 ?首先 考虑 后 者 。 如 果 将 广告 展示 给 任意 一 个 用 
户 ， 那 么 此 人 订房 的 概率 是 多 少 ? 由 于 这 是 我 们 关心 的 分 类 问题 (classification)， 因 而 将 
其 记 作 量 C， 并 将 事件 C 发生 的 概率 记 为 p(C)。p(C) = 0.0001 的 含义 是 : 如 采 随 机 地 将 广 
告 展示 给 用 户 ， 那 么 我 们 认为 10000 个 用 户 中 会 有 一 个 订房 。° 

然后 我 们 要 计算 ， 给 定 某 个 证 据 已 后 事件 C 发生 的 概率 ， 其 中 证 据 可 以 表示 某 个 特定 用 
户 访问 了 一 组 网 站 。 我 们 将 这 个 概率 记 作 p(C\E), EVE “RE E Ja C 的 概率 ”或 “在 E 的 
条 件 下 C 的 概率 "。 这 是 一 种 条 件 概率 ， 其 中 “|” 有 时 也 叫 作 “ 条 件 条 。P(CIB) 应 随 证 据 
的 改变 (本 例 中 指 的 是 访问 过 的 网 站 组 ) 而 改变 。 

如 上 文 所 述 ， 我 们 会 用 一 些 标 注 数 据 (如 在 随机 投放 广告 活动 中 收集 的 数据 ) 把 证 据 E 的 
不 同 集合 与 不 同 概率 关联 起 来 。 但 这 会 导致 一 个 关键 问题 : 对 证 据 互 的 任何 特定 集合 而 
言 ， 我 们 可 能 无 法 找到 足够 多 的 证 据 集 合 与 之 完全 相同 的 案例 ， 以 致 无 法 确定 地 推出 类 成 
员 概 率 。 事 实 上 ， 我 们 甚至 可 能 根本 找 不 到 这 样 的 证 据 集合 ! 试想 在 本 例 中 ， 如 果 要 考虑 
上 千 个 网 站 ， 那 么 ， 训 练 数据 中 某 用 户 的 访问 模式 ， 与 将 来 的 某 用 户 完全 相同 的 概率 是 多 
少 ? 了 巧 怕 是 无 穷 小 。 因 此 ， 我 们 应 该 分 别 卷 虑 不 同 的 证 据 ， 然 后 将 它们 合并 起 来 。 为 了 更 
识 入 地 探讨 这 一 点 ， 需 要 介绍 一 些 关于 合并 概率 的 概念 。 


9.2.1 联合 概率 与 独立 性 


假设 有 两 个 事件 4 和 B， 如 果 p(4) F pB) 已 知 ， 那 么 是 否 可 以 计算 两 个 事件 同时 发 生 的 
概率 ? 该 概率 被 称 为 联合 概率 ， 记 作 p(B). 


在 一 种 特定 情况 下 ， 我 们 能 计算 该 联合 概率 : 当 事 件 4 和 事件 B 相互 独立 时 。 两 者 相互 独 
立 指 的 是 ， 其 中 任意 一 个 事件 都 不 包含 另 一 事件 的 任何 概率 信息 。 一 个 解释 独立 性 的 典型 
PPE RY TR: 即使 已 知 第 1 次 斤 骨 子 的 点 数 ， 也 无 法 确定 第 2 OCR TA. 4 
果 事 件 4 是 “第 1 RRA RBA 6”, SHE BE “SA 2 RBA TRB 6”, 那么 p(A) 
= 1/6, p(B) = 1/6， 而 且 ， 重 要 的 是 ， 虽然 已 知 第 1 KARTAH 6, (He p(B) 依旧 是 
1/6。 该 例 中 的 两 个 事件 就 相互 独立 ， 而 这 种 情况 下 ，p(4B) = p(A) : p(B3) 一 一 我 们 可 以 通过 
将 独立 事件 的 概率 相 乘 来 计算 “联合 ”事件 AB 的 概率 。 此 处 的 p(4B) = 1/36。 
















































































注 3: 这 只 是 一 个 示例 ， 不 是 对 任何 广告 都 适用 的 合理 响应 率 。 比 如 对 行业 外 的 人 士 来 说 ， 线 上 广告 所 贡献 
的 购买 率 看 起 来 通常 非常 低 。 不 过 ， 投 放 线 上 广告 的 成 本 通常 也 非常 低 。 
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TEL AN TPB AR I — Dk. MRE, IBZ, AAG EB BEARS BIE. R 
的 口袋 里 有 6 BEARER ES BEAR LA 1~6 中 的 一 个 数字 ， 每 一 面 的 数字 都 相同 。 
我 随机 从 口袋 里 取出 一 个 骨 子 ， 然 后 挪 两 次 。 本 例 中 ，p(4) = p(B) = 1/6 (因为 我 从 口袋 中 
取出 每 一 个 般 子 的 概率 相等 )， 但 PCB) 也 为 16， 因 为 这 两 个 事件 完全 不 独立 ! 如 果 第 1 
次 扼 山 子 的 点 数 为 6， 那么 第 二 次 也 应 为 6 (反之 亦 然 )。 


考虑 到 事件 间 的 依赖 性 ， 合 并 概率 的 一 般 公 式 如 下 。 
公式 9-1: 用 条 件 概率 表示 的 联合 概率 
P(AB) = p(A) :p(BIA) 


该 公式 读 作 :“4 和 B 的 概率 等 于 4 RRV B 在 4 的 条 件 下 的 概率 ”。 换 句 话 说 就 是 : 
如 果 已 知 4， 那 么 B 的 概率 是 多 大 ? 不 要 着 急 ， 请 确保 完全 理解 这 些 概念 。 

可 以 用 以 上 两 个 骨 子 示例 来 解释 该 公式 。 在 两 者 独立 的 示例 中 ， 因 为 知道 4 的 信息 并 不 会 
让 我 们 了 解 ， 所 以 p(BIA) = p(B)， 因 此 套 入 上 述 公式 ， 我 们 简单 地 将 单个 概率 相 乘 即 可 ; 
MERRTE, pB = 1.0， 因 为 如 果 第 1 次 掷 般 子 的 点 数 为 6， 那 么 第 2 次 的 点 
数 一 定 也 为 6， 所 以 p(4B)=p(4): 1.0=p(4)= 1/6， 符 合 我 们 的 预期 。 

通常 ， 事 件 可 以 完全 独立 、 完 全 不 独立 或 介 于 二 者 之 间 。 如 果 两 事件 并 非 完 全 独立 ， 那 么 
已 知 其 一 ， 另 一 事件 的 概率 就 会 受到 影响 。 但 p(AB) = p(A) - p(BIA) 在 所 有 情况 下 都 适用 。 
我 们 之 所 以 探讨 这 些 细节 ， 是 由 于 一 个 非常 重要 的 原因 一 一 该 公式 是 数据 科学 中 (确切 地 
说 ， 是 所 有 的 科学 中 ) 最 著名 的 公式 之 一 的 基础 。 


9.2.2 WHA 


你 可 能 注意 到 ， 公 式 p(B) = p(A)p(BIA) 中 4 和 8B 的 顺序 看 起 来 非常 随意 。 的 确 如 此 。 我 们 
这 样 写 也 无 妨 : 























































































































p(AB) = p(B) PCB) 
这 意味 着 : 
p(4) -p(BIA) =p(4B) = p(B) PCB) 
JAT: 
p(4) :p(BIA) =p(B) PCD) 
两 边 同 时 除 以 PC4)， 得 到 
AIB) P(B 
peja) -2B PO) 
现在 假设 8 是 我 们 感 兴趣 且 想 要 评估 概率 的 假设 ，4 是 已 观测 到 的 证 据 ， 将 假设 重 命名 为 
H, 证 据 重 命名 为 已 ， 得 到 








) = PEI) pH) 


HIE 
p(H | DE) 








这 便 是 著名 的 贝 叶 斯 法 则 ， 以 牧师 Thomas Bayes 的 名 字 命名 ， 他 在 18 世纪 推导 出 了 该 法 
则 的 一 个 特例 。 贝 叶 斯 共 则 表明 ， 我 们 可 以 利用 假设 五 条 件 下 证 据 E 的 概率 ， 以 及 假设 五 
与 证 据 E 的 无 条 件 概率 ， 计 算出 在 给 定 证 据 E 的 条 件 下 假设 五 的 概率 。 


贝 叶 斯 方法 
贝 叶 斯 法 则 与 仔细 思考 条 件 独 立 性 这 一 基本 概念 相 结 合 ， 构 成 了 大 量 更 为 高 
级 的 数据 科学 技术 〈 本 书 中 并 未 提 及 ) 的 基础 。 这 些 技术 包括 贝 叶 斯 网 络 、 
概率 主题 模型 、 概 率 关 系 模 型 、 隐 马尔 可 夫 模型 、 马 尔 可 夫 随 机 场 等 。 














重要 的 是 ， 后 三 个 量 会 比 最 受 关心 的 量 ( 即 p(HIE)) 更 容易 确定 。 为 了 便于 理解 ， 读 者 不 

妨 考 虑 一 个 (简化 后 的 ) 医疗 诊断 的 例子 : 假如 你 是 一 名 医生 ， 接 诊 了 一 位 身上 长 着 红斑 

的 患者 ， 你 推测 〈 假 设 ) 他 是 长 了 有 麻疹 。 我 们 要 计算 在 给 定 证 据 (B= 红斑 ) 的 情况 下 ， 假 

设 诊断 (A= 麻疹 ) 正确 的 概率 。 为 直接 估计 p( 麻 疹 | 红斑 )， 我 们 需要 考虑 所 有 可 能 致使 

患者 长 红斑 的 原因 ， 以 及 麻疹 在 其 中 所 占 的 比例 ， 而 即使 是 学 识 最 为 广博 的 医师 也 不 可 能 

做 到 这 一 点 。 

然而 ， 我 们 可 以 用 贝 叶 斯 法 则 公式 右 侧 的 式 子 来 估计 这 个 量 。 

。 PEH) 是 得 了 麻疹 的 人 长 红斑 的 概率 。 传 染病 专家 应 该 知道 这 一 点 ， 或 者 能 够 相对 准确 
地 进行 估计 。 

。 p( 如 是 患者 得 麻疹 的 概率 ， 不 将 任何 证 据 考 虑 在 内 ， 而 仪 是 总 体 中 麻疹 的 患 病 率 。 

。 pE) 是 证 据 的 概率 ， 即 患者 长 红斑 的 概率 。 同 样 ， 这 仅 是 总 体 中 红斑 的 患 病 率 ， 只 需 观 
察 和 计数 ， 而 无 须 对 不 同根 本 原因 进行 复杂 推理 。 

贝 叶 斯 法 则 使 得 对 pE) 的 估计 变 得 简单 多 了 。 我 们 需要 三 条 信息 ， 但 这 三 条 信息 比 初始 

值 更 容易 估计 。 

P(E) 可 能 依然 不 容易 计算 ， 但 在 许多 情况 下 ， 我 们 并 不 需要 计算 该 值 ， 因 

为 我 们 对 比较 相同 证 据 条 件 下 不 同 假设 的 概率 更 感 兴趣 。 下 文 将 继续 对 其 

进行 探讨 。 




















9.3 ”将 贝 叶 斯 法 则 应 用 到 数据 科学 中 


现在 ， 贝 叶 斯 法 则 在 数据 科学 领域 的 关键 性 应 该 已 经 显而易见 了 。 确 实 ， 数据 科 学 有 极 大 
一 部 分 内 容 基于 “ 贝 叶 斯 ”方法 ， 而 贝 叶 斯 方法 的 核心 推理 又 基于 贝 叶 斯 法 则 。 但 是 全 
面 地 描述 贝 叶 斯 方法 远 超 出 了 本 书 的 范围 ， 因 此 本 章 将 仅 介绍 最 基本 的 概念 ， 然 后 展示 
它们 在 最 基本 的 贝 叶 斯 技术 中 的 应 用 (后 者 也 得 到 了 广泛 应 用 )。 请 再 次 重 写 贝 叶 斯 法 
则 ， 但 这 次 回 到 分 类 问题 。 我 们 暂时 用 “C=c” 代 表 目 标 变量 取 值 为 <， 以 强调 该 法 则 应 
用 于 分 类 。 


公式 9-2: 分 类 中 的 贝 叶 斯 法 则 














p(E|C=0):p(C=0) 


C=c|E)= 
p(C=c|E) DB 
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公式 9-2 中 共有 4 个 量 ， 左 侧 的 量 是 我 们 需要 估计 的 ， 在 分 类 问题 中 ， 这 就 是 在 考虑 证 据 
E ( 即 特 征 值 向 量 ) 之 后 ， 目 标 变 量 C 取 值 为 c 的 概率 ， 称 作 后 验 概率 。 


贝 叶 斯 法 则 将 后 验 概 率 分 割 成 公式 右 侧 的 三 个 量 。 我 们 希望 能 通过 数据 计算 出 这 些 量 。 


(1) p(C=c) 是 类 别 的 先 验 概率 ， 即 我 们 在 看 到 证 据 前 给 类 别 分 配 的 概率 。 在 贝 叶 斯 一 般 推 
理 中 ， 该 概率 可 能 来 自 多 种 途径 ， 首 先 , “主观 ” 先 验 ， 即 某 个 决策 者 基于 其 所 有 的 知 
识 、 经 验 和 观点 得 出 的 信念 ， 其次， 基于 先前 在 其 他 证 据 上 应 用 的 贝 叶 斯 法 则 得 出 的 
“ 先 验 ”信念 ， 最 后 ， 根 据 数 据 推断 出 的 无 条 件 概率 。 下 文 介绍 的 具体 方法 采用 了 最 后 
一 种 方法 ， 将 c 的 “基础 比率 ”( 整 个 总 体 中 < 的 流行 率 ) 作为 类 先 验 。 该 指标 即 类 c 

在 所 有 实例 中 的 百分比 ， 可 以 根据 数据 很 轻易 地 计算 得 出 。 


(2) p(B|C = c) 是 在 类 Cac 的 条 件 下 ， 证据 E (被 用 于 对 实例 分 类 的 特征 ) 的 概率 。 你 可 以 
把 这 看 作 一 个 “衍生 ”问题 : 如 果 世 界 (数据 生成 过 程 ， 中 创建 出 一 个 c 类 的 实例 ， 那 
么 它 与 E 相似 的 概率 是 多 少 ? 我 们 可 以 通过 计算 数据 中 <c 类 实例 含有 特征 向 量 E 的 比 
例 得 知 答案 。 


(3) 最 后 ，p(E) 是 证 据 的 概率 ， 即 特征 向 量 E 在 所 有 实例 中 的 普遍 程度 。 该 指标 可 以 通过 
计算 特征 向 量 在 所 有 实例 中 出 现 的 百分比 得 知 。 


估计 出 训练 数据 中 的 这 三 个 值 后 ， 我 们 可 以 计算 后 验 概率 p(C=clE) 的 估计 值 ， 并 将 其 用 
于 具体 实例 。 该 后 验 概率 可 以 直接 作为 类 概率 的 估计 ， 还 可 能 会 (如 第 7 章 所 述 ) 与 成 本 
收益 相 结 合 ， 也 可 以 作为 对 实例 进行 排序 的 评分 (比如 ， 判 断 最 有 可 能 对 广告 做 出 响应 的 
用 户 )。 我 们 也 可 以 把 不 同 c 值 下 p(C=clE) 所 取 的 最 大 值 作为 分 类 结果 。 

然而 ,我们 又 回 到 了 上 文 提 到 的 主要 问题 ， 即 让 我 们 无 法 将 公式 9-2 直接 应 用 于 数据 挖掘 
的 问题 。 假 设 E 是 一 个 属性 值 为 <e, es, …, e> 的 普通 向 量 ， 是 一 个 可 能 很 大 的 、 有 具体 的 
条 件 集合 。 若 想 对 其 直接 应 用 公式 9-2， 必 须 事先 知道 p(elAeA…Aedc) 形式 的 p(Elc)。 这 
一 点 很 特殊 ， 而 且 极 难度 量 ， 数 据 中 可 能 并 没有 完全 符合 测试 集中 特定 五 的 具体 实例 ， 即 
使 有 ， 我 们 也 很 可 能 无 法 从 中 确定 地 估计 出 概率 。 

数据 科学 中 的 贝 叶 斯 方法 通过 假设 概率 独立 性 来 解决 这 样 的 问题 。 解 决 这 种 复杂 问题 的 最 
常用 方法 是 对 独立 性 做 非常 强 的 假设 。 


9.3.1 条 件 独 立 和 朴素 贝 叶 斯 

回忆 上 文 的 独立 概念 : 两 事件 相互 独立 ， 意 味 着 已 知 其 中 之 一 ， 不 会 得 知 另 一 事件 的 概率 
信息 。 我 们 来 稍微 扩展 一 下 这 个 概念 。 

条 件 独 立 的 概念 与 之 相同 ， 但 使 用 的 是 条 件 概率 。 根 据 目 的 ， 我 们 将 把 实例 的 类 作为 条 件 
(因为 在 公式 9-2 中 ， 我 们 需要 寻找 给 定 类 中 证 据 的 概率 )。 条 件 独立 与 上 文中 讨论 过 的 无 
条 件 独立 直接 相似 。 特 别 地 ， 在 不 做 独立 性 假设 的 情况 下 ， 为 合并 概率 ， 我 们 需要 用 到 用 
IC 条 件 增强 后 的 公式 9-1: 





















































































































































P(AB|C)=p(4|C): p(B| AC) 





TE 4: “A” dap “5”. 





然而 , 如 上 文 所 述 ,如 果 我 们 假设 4 和 8 在 给 定 C 的 情况 下 条 件 独立 *， 就 能 更 轻松 地 合并 
概率 ; 








P(AB|C) = p(A|C)- p(B|C) 

由 此 ， 我 们 根据 数据 计算 概率 的 能 力 发 生 了 巨大 的 改变 ， 尤 其 是 对 公式 9-2 中 的 条 件 概 
X p(E\C=c) 而 言 。 假 设 对 于 给 定 的 类 而 言 ， 变 量 互相 条 件 独 立 ， 也 就 是 说 ， 在 特征 向 量 
pesen engl H, RER c, EA e 都 与 其 他 e 相互 独立 。 为 简化 描述 ， 只 要 不 会 
招致 误解 ， 我 们 就 用 c 替代 C=c。 

p(E|O)= P(e. 和 ^@AN…A@|o) 

=p(e|c): ple, |e): ple, |c) 

每 个 pec) 都 能 通过 数据 直接 计算 得 出 ， 因 为 我 们 只 需 计 算 c 类 中 个 体 特 征 e 出 现 的 次 数 
所 占 比例 即 可 ， 而 不 需要 寻求 与 之 完全 匹配 的 特征 向 量 。 这 样 的 特征 向 量 e 可 能 会 出 现 很 
多 次 “。 将 其 与 公式 9-2 相 结合 ， 就 得 到 了 朴素 贝 叶 斯 方程 ， 如 公式 9-3 所 示 。 
公式 9-3: 朴素 贝 叶 斯 方程 















































_ pele): ple, |e): ple, |e): p(o) 
we P(E) 
这 是 朴素 贝 叶 斯 分 类 器 的 基础 。 该 分 类 器 能 通过 估计 新 个 体 属于 每 个 分 类 的 概率 ， 对 其 进 
行 分 类 ， 并 输出 概率 最 高 的 类 。 
以 下 是 两 段 技术 细节 。 此 刻 你 可 能 已 经 发 现 了 公式 9-3 中 的 分 母 含 有 p(E)， 你 可 能 会 说 : 
“如 果 我 的 确 看 懂 了 的 话 ， 那 么 这 个 值 的 计算 对 我 来 说 不 是 和 p(E|O) 一 样 难 吗 ? ”可 实际 
E, pE) 一 般 不 需要 计算 ,原因 如 下 : 首先 ， 我们 如 果 对 分 类 感 兴趣 ， 那 么 主要 关心 的 是 
在 不 同 可 能 的 类 c 中 ， 哪 一 个 的 p(CIE) 最 大 。 因 为 本 例 中 的 E 对 所 有 类 c 都 相同 ， 所 以 我 
们 可 以 只 比较 分 子 。 
即使 我 们 需要 实际 的 概率 估计 ， 也 同样 可 以 避免 计算 分 子 中 的 p(E)。 这 是 因为 类 通常 是 互 
斥 和 穷尽 的 ， 即 每 个 实例 有 且 仅 有 一 个 类 别 值 。 在 Luxhote 的 示例 中 ， 用 户 要 么 订房 ， 要 
么 不 订 。 非 正式 地 说 ,证 据 E 要 么 属于 cv， 要 么 属于 ce; 用 数学 语言 说 ， 则 是 : 


P(E)=p(E Ac) + P(E Ac) 
= P(E | cy): p(cy) + P(E | ¢,): plc) 
根据 独立 性 假设 ， 我 们 可 以 这 样 改 写 公 式 : 
P(E) = pe, |c): ple, | co) ple, |c): P(c) 
+ ple, |c): ple, | c) ple |c) pc) 


将 其 与 公式 9-3 结合 ， 我 们 就 得 到 了 朴素 贝 叶 斯 方程 ， 从 而 可 以 轻松 地 利用 数据 计算 出 后 
验 概率 : 





phe 
















































































TES: 顺便 提 一 句 ， 该 假设 比 无 条 件 独立 的 假设 稍 弱 。 
注 6: 如 果 没 有 出 现 很 多 次 ， 那 么 我 们 可 以 用 小 样本 下 的 统计 修正 来 计数 。 可 参考 3.5 市 。 
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P(c |E)= ple [&): Ple lco) ple | co) ple) 
0 ple |c): p(e, | Co) Ple lc) ‘p(co) + ple |c,)- p(e, lc) ple, lc) p(q) 


虽然 公式 中 存在 许多 项 ， 但 是 每 个 项 要 么 是 某 个 单项 证 据 的 权重 ， 要 么 是 类 先 验 概率 。 


9.3.2 ”朴素 贝 叶 斯 的 优 劣势 


虽然 朴素 贝 叶 斯 是 个 非常 简单 的 分 类 器 ， 但 是 它 仍 将 所 有 特征 证 据 都 考虑 在 内 ， 因 而 在 存 
储 空间 和 计算 时 间 方 面具 有 优势 。 模 型 训练 仅 包含 存储 所 有 实例 的 类 的 计数 和 特征 的 出 现 
次 数 。 如 上 所 述 ，P(c) 可 以 通过 计算 所 有 实例 中 e 类 实例 的 比例 估计 得 知 ，p(eie) 则 可 以 
根据 c 类 中 含有 特征 e 实例 的 比例 估计 得 知 。 


虽然 相 素 贝 叶 斯 非常 “朴素 "， 且 其 独立 性 假设 非常 严格 ， 但 在 许多 现实 分 类 问题 上 的 表 
现 却 惊人 地 好 。 这 是 因为 即使 独立 性 假设 被 韦 反 ,分 类 器 的 性 能 也 一 般 不 会 降低 。 试 想 两 
条 强 关联 的 证 据 。 强 关联 意味 着 什么 ?大 体 上 说 ， 它 意味 着 在 看 到 其 中 一 个 时 ， 也 能 看 到 
男 外 一 个 。 现 在 ， 如 果 把 两 者 按 相 互 独 立 处 理 ， 那 么 我 们 看 到 其 中 一 个 时 就 会 说 “存在 某 
类 别 的 证 据 *， 而 当 看 到 另 一 个 时 则 说 “存在 更 多 该 类 别 的 证 据 *。 因 此 在 某 种 程度 上 ,我 
们 会 对 证 据 重复 计数 。 然 而 ， 只 要 证 据 的 方向 正确 ， 那 么 重复 计数 就 不 会 影响 对 分 类 的 判 
断 。 事 实 上 ， 它 会 导致 概率 估计 在 正确 的 方向 上 更 为 极端 : 概率 会 对 正确 的 类 做 过 高 估 
计 ， 而 对 错误 的 类 (多 个 类 ) 做 过 低估 计 。 但 分 类 时 ， 我 们 选择 的 是 概率 最 高 的 类 ， 因 此 
在 正确 方向 上 的 极端 估计 并 没有 妨碍 。 


但 如 果 我 们 要 用 概率 估计 值 本 身 ， 这 就 成 为 了 问题 。 因 此 如 第 7 章 所 述 ， 在 实际 进行 成 本 
收益 的 决策 时 ， 对 杆 素 贝 叶 斯 的 使 用 必须 谨慎 。 当 概率 的 实际 值 与 问题 不 相关 时 ， 业 界 人 
士 的 确 会 用 杆 素 贝 叶 斯 来 排序 ， 其 各 不 同类 别 中 仅 包 含 实例 的 相对 值 。 


朴素 贝 叶 斯 的 另 一 个 优势 是 ， 它 是 一 种 天 然 的 “ 增 量 学 习 器 "。 增 量 学 习 器 是 一 种 能 随 训 
练 更 新 模型 的 归纳 技术 。 每 出 现 一 个 新 的 训练 实例 它 都 会 进行 一 次 更 新 ， 且 在 出 现 新 的 训 
练 数据 时 ， 它 不 需 重新 处 理 所 有 训练 过 的 实例 。 


增 量 学 习 在 应 用 过 程 中 训练 标签 不 断 显 露出 来 的 情况 下 ， 尤 其 有 优势 。 我 们 希望 模型 尽 可 
能 快 地 将 这 些 新 信息 纳入 模型 内 。 比 如 ， 考 虑 创建 个 性 化 的 垃圾 邮件 分 类 器 的 问题 。 当 
我 收 到 垃圾 邮件 ， 我 可 以 按 一 下 训 览 器 中 的 “垃圾 ”按钮 。 这 样 不 仅 能 把 垃圾 邮件 从 收 
件 箱 中 删除 ， 还 能 创建 一 个 训练 数据 点 : 垃圾 邮件 的 一 个 正 样本 人 个体。 如果 模型 能 立即 
更 新 、 即 时 写 入 且 立 即 把 相似 的 邮件 归 为 垃圾 邮件 ， 那 么 这 个 系统 将 非常 有 用 。 而 朴素 
贝 叶 斯 正 是 许多 个 性 化 的 垃圾 邮件 监测 系统 的 基础 ， 比 如 Mozilla Thunderbird 中 的 系 


统 。 


朴素 贝 叶 斯 几乎 包含 在 所 有 数据 挖掘 工具 包 中 ， 作 为 常见 的 基线 分 类 器 ， 它 常常 用 于 与 更 
复杂 的 方法 作 比较 。 我 们 已 经 讨论 了 使 用 二 元 变量 的 朴素 贝 叶 斯 。 上 文 呈 现 的 这 种 基本 思 
想 可 以 轻松 地 扩展 至 多 值 类 别 型 属性 或 数值 型 属性 ， 你 可 以 在 数据 挖掘 算法 的 相关 的 教材 


中 读 到 这 些 。 
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朴素 贝 叶 斯 的 变 体 
确实 有 许多 存在 些许 不 同 的 分 类 器 也 叫 朴 素 贝 叶 斯 。 这 些 区 别 往往 很 小 ， 易 被 忽略 
(除了 在 这 个 补充 栏 里 ， 本 章 其 余 篇 幅 痢 会 忽略 这 些 区 别 )。 但 它们 会 造成 影响 。 


简 而 言 之 ， 朴 素 贝 叶 斯 (NB) 基于 “生成 ”模型 ， 即 关于 数据 如 何 生 成 的 模型 。 不 同 
的 NB 基于 不 同 的 生成 统计 模型 ， 而 这 些 都 构成 了 我 们 讨论 过 的 主要 NB 假设 (也 就 
是 ， 对 每 个 类 别 而 言 ， 特 征 是 条 件 独立 地 生成 的 ) 。 此 处 我 们 虽然 不 会 探讨 实际 的 统计 
模型 ， 但 仍 有 必要 考虑 一 个 关键 区 别 。 


你 会 发 现 ， 我 们 描述 的 NB 模型 把 每 个 特征 值 都 当 作 支持 或 反对 每 个 类 的 证 据 ， 可 
是 如 果 存 在 许多 特征 呢 ， 比 如 语言 中 的 每 个 单词 ， 或 一 个 人 可 能 会 访问 的 每 个 网 
页 ? 这 种 情况 下 ， 特 征 往往 代表 这 些 单词 、 网 页 等 出 现 的 次 数 或 频率 。 事 实证 明 ， 
在 这 种 应 用 场景 下 ， 大 部 分 单词 、 网 页 等 通常 不 会 出 现在 任何 具体 实例 中 (如 文件 、 
REAP). 


事实 证 明 ， 朴 素 贝 叶 斯 评分 的 计算 有 许多 数学 技巧 ， 可 以 使 我 们 只 需要 考虑 现 有 的 
证 据 。 感 兴趣 的 读者 不 妨 多 读 些 与 技巧 相关 的 或 与 不 同 朴素 贝 叶 斯 模型 相关 的 文献 
(McCallum & Nigam, 1998; Junqué de Fortuny 等 , 2013), RÆ, KAPKA HRP 
的 惯例 是 ， 仅 对 现 有 的 证 据 做 显 性 思考 。 因 此 ， 举 个 例子 ， 在 上 文 的 广告 示例 中 ,我 
们 通常 只 关注 用 户 会 访问 的 网 站 ， 而 不 关心 用 户 并 未 访问 的 众多 网 站 。 后 者 将 根据 数 
据 生成 方式 的 假设 ， 在 数学 中 做 隐 性 处 理 。 同 样 ， 在 下 文中 我 们 也 将 仅 考 虑 Facebook 
用 户 点 赞 过 的 项 目 ， 而 不 会 对 用 户 没有 点 赞 过 的 所 有 可 能 的 项 目 做 显 性 思考 。 











9.4 证据“ 提升 度 ” 的 模型 


8.5 节 展 示 了 一 种 评估 分 类 器 的 指标 一 一 提升 度 。 提 升 度 是 正 向 类 在 选 定 的 子 总 体 中 的 比 
例 与 在 整个 总 体 中 的 比例 之 比 。 如 果 在 随机 选 定 的 目标 用 户 群 中 订房 的 概率 是 0.01%， 而 
在 我 们 选择 的 群体 中 概率 是 0.02%， 那 么 分 类 器 的 提升 度 就 是 2， 即 我 们 选择 的 群体 使 订 
房 率 翻 倍 。 

稍 作 调 整 后 ， 我 们 便 可 以 用 朴素 贝 叶 斯 方程 模拟 由 不 同 证 据 造成 的 不 同 提升 度 。 这 样 的 
“ 稍 作 调整 ” 指 的 是 假设 完全 特征 独立 ， 而 不 是 用 于 朴素 贝 叶 斯 的 条 件 独立 的 弱 假 设 。 由 
于 其 对 世界 做 了 更 强 的 简化 假设 ， 因 而 我 们 称 其 为 “朴素 朴素 贝 叶 斯 "。 在 假设 完全 特征 
独立 后 ， 公 式 9-3 就 变 成 了 如 下 的 相 素 朴素 贝 叶 斯 : 


_plelo:pelo…pelo:pa 
PE ple): ple) ple) 





















































可 以 在 重新 排列 公式 中 的 项 后 得 到 公式 9-4, 
公式 9-4: 作为 提升 度 (lift) 乘积 的 概率 


P(c| E) = p(c)-lift.(e) -lift.(e,)--- 
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FN 中 lift.(x) 定义 为 : 





lit (W209 
KOS 


考虑 这 些 提升 度 如 何 应 用 于 新 实例 巨 = <e, en …, e>。 从 先 验 概率 开始 ， 每 条 证 据 ( 即 
每 个 特征 e) 会 根据 一 个 等 同 于 其 提升 度 的 因子 (可 能 小 于 1) 提升 或 降低 实例 属于 该 类 
的 概率 。 


概念 上 讲 ， 我 们 先 将 一 个 数字 〈 称 为 z) 设 为 类 c 的 先 验 概率 ， 然 后 观察 示例 ， 针 对 每 个 
新 证 据 e， 我 们 用 z 乘 以 其 相应 的 提升 度 lift(e)。 如 果 提 升 度 大 于 1， 概 率 z 就 会 提升 ， 如 
果 小 于 1，z 就 会 下 降 。 


在 Luxhote 示例 中 ，z 代表 订房 的 概率 ， 其 初始 值 为 0.0001 〈 看 到 证 据 前 ， 某 网 站 访问 者 
订房 的 先 验 概率 )。 如 果 访 问 的 是 金融 网 站 ， 就 将 订房 概率 乘 以 因数 2， 如 果 是 卡车 拉力 赛 
网 站 ， 就 将 订房 概率 乘 以 因数 0.25， 以 此 类 推 。 处 理 好 EE 的 所 有 证 据 e; 后 ， 得 到 的 乘积 
(PRA) z,) 就 是 E 属于 类 c 的 概率 (信念 )。 而 在 本 例 中 ， 网 站 访客 会 预定 房间 。” 


从 这 个 角度 考虑 ， 你 应 该 就 能 明白 为 何 需要 做 独立 性 假设 了 一 一 因为 我 们 把 所 有 证 据 按 相 
互 独立 处 理 ， 所 以 只 需 用 各 自 的 提升 度 乘 以 z。 然 而 任何 轻微 的 相依 性 都 会 导致 终 值 z 失 
真 ( 它 可 能 变 得 更 高 或 更 低 )。 因 此 ， 证 据 提 升 度 及 其 组 合 形 式 非常 有 助 于 理解 数据 和 比 
较 实例 的 分 数 ， 但 概率 的 实际 终 值 必须 审慎 考虑 。 


9.5 示例 : Facebook“ 点 赞 ” 的 证 据 提 升 度 


接 下 来 本 章 基于 真实 数据 来 检验 提升 度 。 为 了 保持 新 鲜 感 ， 本 章 将 换 一 个 全 新 领域 的 应 
用 问题 。 研 究 者 Michael Kosinski, David Stillwell 和 Thore Graepel 近期 在 《美国 国家 科学 
院 院 刊 》 上 发 表 的 一 篇 文章 (Kosinski 等 , 2013) 中 展示 了 一 些 惊人 的 结果 一 一 社交 网 站 
Facebook 用户 所 “ 赞 ” 的 内 容 可 以 在 很 大 程度 上 透露 出 通常 并 不 明显 的 个 人 特征 : 

智力 测验 的 水 平 

心理 计量 测验 的 水 平 (如 开朗 或 尽责 程度 ) 




















































































































是 否 为 (出 柜 了 的 ) 同性 恋 
是 否 饮酒 或 吸烟 
宗教 和 政治 观点 

诸如 此 类 
































注 7: 技术 上 讲 ， 我 们 可 能 还 需要 考虑 其 没有 访问 其 他 网 站 的 证 据 ， 该 指标 仍 需要 用 一 些 数 学 技巧 处 理 ， 详 

见 前 文 的 “朴素 贝 叶 斯 的 变量 ”。 
注 8: 在 此 简单 介绍 一 下 Facebook， 以 防 你 对 它 不 太 了 解 。Facebook 是 一 个 可 供 大 众 分 享 各 种 关于 兴趣 和 
活动 的 信息 以 及 联系 “好 友 ” 的 平台 。Facebook 还 有 专门 展示 特殊 兴趣 的 网 页 ， 如 电视 节目 、 电 影 、 
乐队 、 爱 好 等 。 和 本 章 相关 的 是 页 面 中 “点 赞 ”按钮 。 用 户 可 以 通过 点 击 来 表明 自己 对 相应 内 容 的 喜 
爱 。 这 样 的 “ 赞 ”通常 可 以 被 好 友 看 到 。 并 且 ， 如 果 你 “ 赞 ” 过 某 个 粉丝 页 ， 你 就 会 逐渐 看 到 许多 与 
该 粉丝 页 相关 的 推送 。 
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读者 不 妨 阅读 此 文 ， 了 解 一 下 他 们 的 实验 设计 。 在 读 过 本 书后 ， 你 应 该 有 能 力 理解 大 部 分 
的 结果 。( 比 如 ， 他 们 用 AUC 评估 对 二 元 特征 的 预测 能 力 ， 此 时 你 已 经 能 够 对 此 进行 正确 


解读 了 。) 





我 们 要 做 的 是 ， 寻 找 能 为 “高 IQ ”提供 强 有 力 证 据 提升 度 的 “ 赞 "， 或 更 具体 地 说 ， 能 忒 


“TE IQ 测试 中 取得 高 分 ” 














些 样本 ， 并 定义 二 元 目标 变量 “IQ > 130”。 





提供 强 有 力 提升 度 的 “ 赞 "。 我 们 要 从 Facebook 用 户 群 中 选取 一 

















接 下 来 ， 我 们 来 找 一 找 提供 最 高 提升 度 的 “ 赞 ”…… ”( 结 果 见 表 9-1) 
表 9-1: 一 些 Facebook 页 面 的 “ 赞 ” 及 相关 提升 度 


点 赞 的 页 面 
《指环 王 》 

一 漫画 

科学 

心理 学 
生活 大 爆炸 》 
Paulo Coelho 

《每 日 秀 》 

《迷失 》 

《 别 对 我 说 谎 》 

《 老 爸 老 妈 的 浪漫 史 》 
神秘 博士 》 

合 尔 的 移动 城堡 》 
《电子 世界 争霸 战 》 
愤怒 的 小 岛 
《教父 》 





A 





2 




















fe 升 
.69 
.57 
49 
46 
43 
Al 





度 









































点 赞 的 页 面 tt 升 È 
维基 解密 1.59 
WB 1.52 
美国 国家 公共 电台 1.48 
《 千 与 千 寻 》 1.45 
跑步 1.41 
Roger Federer 1.40 
《星际 迷航 》( 电 影 ) 1.39 
哲学 1.38 
《 洋 瓯 报 》 1.37 
《 科 尔 伯 特 报告 》 1.35 
《星际 迷航 》 1.32 
Sheldon Cooper 1.30 
《搏击 俱乐部 》 1.26 
《 盗 梦 空间 》 1.25 
《单身 毒 妈 》 1.22 





那么 ， 根 据 上 文中 的 公式 9-4 和 当时 所 做 的 独立 性 假设 ,我们 便 可 以 基于 茶 人 点 赞 过 的 页 
面 ， 计 算 此 人 IQ 极 高 的 概率 。Facebook 上 ， 赞 过 Sheldon Cooper 页 面 的 用 户 的 高 IQ 概率 
比 一 般 人 和 群 的 高 IQ 概率 高 出 30%， 而 赞 过 《指环 王 》 页 面 的 用 户 的 高 IQ 概率 比 一 般 人 群 


的 高 IQ 概率 高 出 69%。 





CAI PPA BRITE 


当然 ， 有 一 些 页 面 上 的 赞 也 会 拉 低 用 户 高 IQ 的 概率 。 但 我 们 不 会 在 这 里 列 出 这 些 页 面 ， 


























本 例 还 说 明了 根据 数据 收集 过 程 ， 谨 慎 考 虑 结果 含义 的 重要 性 。 上 文 的 结果 并 非 表 示 喜 欢 
《指环 王 》 代 表 用 户 很 可 能 具有 高 IQ ， 而 是 表示 赞 过 《指环 王 》 的 Facebook 页 面 代表 用 户 
很 可 能 具有 高 IQ。 两 者 的 区 别 非常 重要 : 在 网 页 上 点 “ 赞 ”并 不 等 同 于 喜欢 这 个 内 容 ， 而 
我 们 收集 到 的 数据 是 前 者 ， 并 非 后 者 。 
































注 9: 感谢 Wally Wang 在 生 
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的 鼎力 相助 。 
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96 小 结 


前 一 章 所 展示 的 建 模 技术 ， 主 要 提出 了 在 实例 总 体 的 不 同 分 组 中 “区 分 目标 变量 值 的 最 佳 
方法 是 什么 ”的 问题 。 分 类 树 和 线性 方程 都 以 尝试 降低 损失 或 粹 值 的 方式 构建 模型 ， 而 损 
失 和 信 值 都 是 区 分 度 的 函数 。 分 类 树 和 线性 方程 都 被 称 为 判别 分 类 法 ， 因 为 它们 能 直接 辩 
别 不 同 的 目标 变量 。 

本 章 则 介绍 了 一 类 新 方法 ， 它 能 够 在 本 质 上 将 该 问题 颠倒 为 :“ 不 同 的 目标 分 组 如 何 生成 
特征 值 ? ”这 些 方法 能 够 模拟 数据 生成 的 过 程 ， 而 在 使 用 环节 ， 出 现 需要 分 类 的 新 实例 
时 ， 它 们 就 会 用 模型 来 回答 这 个 问题 :“ 哪 个 类 最 有 可 能 生成 这 个 实例 ?”” 因 此， 该 方法 
在 数据 科学 中 被 称 为 生成 方法 。 这 其 中 一 大 类 常用 方法 被 称 为 贝 叶 斯 方法 。 它 们 之 所 以 是 
生成 方法 ， 是 因为 它们 严格 依赖 于 贝 叶 斯 法 则 。 贝 叶 斯 方法 的 相关 文献 博大 精深 ， 你 在 数 
据 科 学 领域 也 会 发 现 它们 非常 常见 。 

本 章 首先 集中 讨论 了 一 种 尤其 常见 、 尤 其 简单 ， 但 行 之 有 效 的 贝 叶 斯 方法 一 一 朴素 贝 叶 斯 
分 类 器 。 它 的 “朴素 ”在 于 ， 由 于 模型 中 的 特征 (根据 每 个 目标 ) 被 当 作 是 独立 生成 的 ， 
因而 当 特 征 实际 上 相关 时 ， 分 类 器 最 后 可 能 会 重复 计算 证 据 数 。 由 于 简单 ， 朴 素 贝 叶 斯 非 
常 快速 高 效 ， 而 且 它 虽 然 “ 朴 素 "， 但 是 却 惊 人 地 有 效 。 由 于 简单 ， 它 甚至 成 为 了 数据 科 
学 中 常用 的 “基线 ”方法 (任何 新 问题 都 会 首先 使 用 的 方法 ) 之 一 。 

本 章 还 探讨 了 使 用 某 种 独立 性 假设 的 贝 叶 斯 推理 如 何 帮助 通过 我 们 计算 “证 据 提升 度 ” 检 
验 大量 可 能 的 证 据 是 否 支持 结论 。 本 章 还 举 了 一 个 例子 :“ 赞 ”过 《搏击 俱乐部 》《 星 际 迷 
航 》 或 Sheldon Cooper 的 Facebook 页 面 的 用 户 拥 有 高 IQ 的 概率 比 一 般 人 群 高 30%。 











































































































第 10 章 


文本 的 表示 和 挖掘 





基本 概念 : 构造 挖 握 友 好 型 数据 表示 法 的 重要 性 ; 数据 挖 握 所 用 文本 的 表示 

示例 方法 : 词 袋 模 型 表示 法 ; TFIDF 计算 ; n-grams; 词 干 提取 ; 命名 实体 提取 ; 

主题 模型 
到 目前 为 止 ， 本 书 一 直 在 忽略 或 回避 数据 挖掘 流程 的 一 个 重要 环节 数据 准备 。 大 部 分 
数据 挖掘 方法 是 以 特征 向 量 为 输入 的 ， 然 而 在 现实 中 ， 我 们 获得 的 数据 并 非 都 是 以 特征 向 
量 形式 表示 的 。 数 据 总 是 以 它们 在 问题 中 自然 产生 的 方式 呈现 ， 如 果 我 们 想 运 用 手头 上 的 
诸多 数据 挖掘 工具 ， 就 必须 把 数据 加 工 处 理 成 为 适合 工具 的 表示 方式 ， 或 者 构造 适合 数据 
的 新 工具 ， 而 一 流 的 数据 科学 家 会 同时 采用 两 种 策略 。 通 常 ， 首 先 用 现 有 工具 对 数据 进行 
处 理会 比较 简单 ， 因 为 现 有 工具 不 但 比较 好 理解 ， 而 且 种 类 很 多 。 
本 章 将 关注 一 种 特别 的 数据 类 型 : 文本 数据 。 如 今 ， 由 于 互联 网 已 成 为 无 处 不 在 的 沟通 渠 
道 ， 文 本 数据 变 得 极为 常见 。 通 过 检验 文本 数据 ， 我 们 可 以 看 到 数据 工程 中 许多 真正 的 复 
杂 性 ， 并 且 能 加 深 对 一 种 非常 重要 的 数据 的 理解 。 到 第 14 章 你 会 明白 ,虽然 本 章 仅 关注 
文本 数据 ， 但 这 些 基本 原则 确实 能 推广 到 其 他 重要 的 数据 类 型 中 。 
我 们 在 6.4.4 节 中 遇 到 过 一 次 文本 数据 。 当 时 我 们 有 意 回 避 了 对 新 闻 报 道 数 据 准备 过 程 的 
详细 探讨 ， 因 为 当时 关注 的 是 聚 类 ， 而 文本 的 准备 有 些 偏 题 。 本 章 则 专门 讨论 文本 处 理 的 
难点 和 机 会 。 
原则 上 ， 文 本 不 过 是 数据 的 另 一 种 形式 ， 文 本 处 理 也 只 是 表示 工程 的 特殊 情形 。 实 际 上 ， 
处 理 文 本 不 仅 需 要 专用 的 预 处 理 步 又 ， 有 时 还 需要 数据 科学 团队 具有 特定 的 专业 知识 。 
关于 文本 挖掘 ， 有 各 种 图 书 、 会 议 、 公 司 专门 对 其 进行 研究 和 讨论 。 然 而 本 章 只 是 浅 党 辑 
止 ， 对 技术 和 典型 商业 应 用 中 的 问题 进行 概述 。 


首先 讨论 文本 的 重要 性 和 它 难 以 处 理 的 原因 。 
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10.1 为 什么 文本 很 重要 


文本 无 处 不 在 。 许 多 传统 应 用 程序 仍 会 产生 或 记录 文本 。 病 历 、 用 户 投诉 记录 、 产 品 查询 
记录 和 维修 记录 仍 是 人 与 人 (而 非 计算 机 ) 之 间 的 主要 交流 方式 ， 因 此 仍 需 将 其 “编码 ” 
为 文本 。 要 想 对 这 类 庞大 的 数据 进行 开发 利用 ， 必 须 将 其 转换 成 有 意义 的 形式 。 

互联 网 也 许 是 培育 “新 媒体 ”的 温床 ， 但 它 的 大 部 分 仍 与 旧 媒 体形 式 相 同 ， 包 含 大量 个 人 
网 页 、Twitter 简讯 、 电 子 邮 件 、Facebook 状态 更 新 、 产 品 介绍 、Reddit 评论 和 博文 等 形 
式 的 文本 。 我 们 每 天 使 用 的 搜索 引擎 (谷歌 和 必 应 ) 就 是 由 大 量 面向 文本 的 数据 科学 支撑 
的 。 虽 然 音 乐 和 视频 占据 了 大 部 分 的 网 络 流量 ， 但 人 们 线 上 交流 的 主要 方式 还 是 文本 。 确 
实 ，Web 2.0 的 主 骨 是 ， 网 站 不 仅 能 为 用 户 提供 以 社区 形式 交流 的 平台 ， 还 能 让 用 户 生成 
更 丰富 的 网 页 内 容 ， 而 用 户 生 成 的 内 容 和 交互 通常 为 文本 形式 。 


在 各 个 行业 中 ， 理 解 用 户 的 反馈 通常 需要 理解 文本 ， 但 情况 并 非 总 是 如 此 。 不 可 否认 ， 一 
些 重要 的 用 户 态度 可 以 用 数据 明确 地 表示 ， 或 可 以 通过 行为 推断 ， 比 如 五 星 级 评定 、 点 击 
模式 、 转 化 率 等 。 我 们 也 可 以 花 点 钱 ， 用 焦点 小 组 和 线 上 调查 等 方法 来 收集 和 量化 数据 。 
但 在 许多 情况 下 ， 如 果 想 “聆听 用 户 的 意见 "， 那 么 就 得 亲自 去 读 此 人 所 写 的 内 容 ， 如 产 
品评 论 、 客 户 反 馈 表格 、 意 见 书 、 电 子 邮 件 等 。 


10.2 为 什么 文本 很 难处 理 


文本 往往 被 称 作 “ 非 结构 化 ”数据 。 这 指 的 是 文本 中 不 含 一 般 数据 所 具备 的 结构 ， 由 有 固 
定 意义 的 域 构成 的 记录 表格 (也 就 是 特征 向 量 的 集合 )， 以 及 表格 之 间 的 关联 关系 。 虽 然 
文本 中 的 确 存 在 大 量 结 构 ， 但 是 这 些 结构 是 语言 学 结构 ， 它 们 可 供 人 类 理解 ， 但 计算 机 无 
法 理解 。 


单词 的 长 度 和 文本 域 中 所 含 的 单词 数 都 会 不 同 。 有 了 时 单词 的 顺序 会 影响 含义 ， 有 时 又 不 会 。 


从 数据 角度 看 ， 文 本 相对 较 脏 ， 因 为 人 们 写 东西 常常 不 合 文法 ， 总 是 犯 拼写 错误 、 把 词 连 
在 一 起 、 胡 乱 缩写 和 乱 加 标点 。 即 使 文本 的 表达 完美 无 瑕 ， 其 中 也 可 能 存在 同义词 (多 词 
EX) 和 同形 异 义 词 (一 词 多 义 )。 一 个 领域 中 的 术语 和 简写 对 另 一 个 领域 而 言 可 能 上 毫 无 
意义 ， 比 如 我 们 不 能 强求 医疗 记录 和 计算 机 维修 记录 包含 相同 的 术语 。 最 坏 的 可 能 是 ， 两 
者 的 术语 含义 甚至 存在 冲突 。 
由 于 文本 的 目的 是 方便 人 们 之 间 的 交流 ， 故 而 语 境 非常 重要 ， 甚 至 比 在 其 他 数据 格式 中 更 
重要 。 思 考 以 下 的 影评 片段 : 
“电影 的 第 一 部 分 远 好 过 第 二 部 分 。 演 技 很 差 ， 到 最 后 甚至 失控 了 。 暴 力 部 分 过 
头 了 ， 而 结尾 也 令 人 难以 置信 。 但 这 仍 不 失 为 一 部 有 趣 的 电影 。 
整 段 话 到 底 是 蛮 还 是 贬 呢 ? 难以 置信 一 词 是 讲义 还 是 贬义 ? 在 不 考虑 整个 语 境 的 情况 下 ， 
E 佑 任何 单词 或 短语 都 是 很 难 的 。 
因此 ， 文 本 在 输入 数据 挖掘 算法 前 ， 必 须 经 过 大 量 的 预 处 理 。 通 常 ， 文 本 的 特性 越 复杂 ， 
文本 问题 所 包含 的 方面 就 越 多 。 本 章 接 下 来 将 仅 描 述 准备 数据 挖掘 所 用 文本 的 一 些 基 本 
方法 。 
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10.3 ”表示 法 


探讨 完 文 本 的 环 手 之 处 后 ， 我 们 来 看 看 将 文本 的 正文 转化 成 能 直接 输入 数据 挖掘 算法 的 数 
据 集 的 基本 步骤 。 文 本 挖掘 的 一 般 策略 是 ， 在 所 有 可 用 的 技术 里 选择 最 简单 的 〈 也 就 是 最 
便宜 的 )。 虽 然 如 此 ， 但 是 这 些 概念 却 是 许多 网 页 搜索 引擎 (如 谷歌 和 必 应 ) 背后 的 关键 
技术 。 接 下 来 的 一 个 例子 将 演示 基本 查询 检索 。 

首先 介绍 一 些 基 本 术语 。 这 些 术 语 大 部 分 源 自信 息 检索 (IR) 领域 。 文 档 指 一 段 文 本 ， 无 
所 谓 长 短 。 它 既 可 以 是 一 个 句子 ， 也 可 以 是 100 页 的 报告 ， 还 可 以 介 于 两 者 之 间 ， 如 一 条 
YouTube 评论 或 一 篇 博文 。 一 般 说 来 ， 一 篇 文档 中 的 所 有 文本 会 被 放 在 一 起 加 以 考虑 ， 并 
在 匹配 或 分 类 时 ， 将 所 有 文本 作为 单独 一 项 进行 检索 。 文 档 由 单独 的 语 符 (token) 或 词语 
(term) 构成 。 目 前 你 可 以 暂时 将 语 符 或 词语 视 作 单词 。 随 着 学 习 的 深入 ， 你 会 知道 它们 与 
我 们 平时 谈论 的 单词 的 区 别 。 文 档 的 集合 则 被 称 为 语料库 (corpus). | 


10.3.1 meee! 

请 说 记 文 本 表示 任务 的 目的 。 本 质 上 ， 我 们 把 一 组 文档 (每 一 篇 都 是 形式 自由 的 单词 序 
列 ) 转化 为 熟悉 的 特征 向 量 形式 。 每 篇 文档 都 是 一 个 数据 项 ， 而 我 们 事先 不 知道 它们 的 特 
征 是 什么 。 

首先 要 介绍 的 方法 叫 作 “ 词 袋 模型 ”。 顾 名 思 义 ， 该 方法 把 每 篇 文档 作为 单词 的 集合 ， 忽 
略语 法 、 词 序 、 句 型 结构 和 标点 。 它 把 文档 中 的 每 个 单词 都 作为 可 能 的 重要 关键 词 。 该 表 
示 法 非常 简单 ， 生 成 成 本 不 高 ， 且 适用 于 许多 任务 。 

集合 和 包 

尽管 集合 和 包 在 数学 中 有 特殊 含义 ， 但 都 不 是 这 里 所 指 的 含义 。 集 合 中 每 个 
项 只 能 出 现 一 次 ， 而 我 们 却 想 要 考虑 单词 的 出 现 次 数 。 包 在 数学 中 指 的 是 多 
重 集 ， 即 其 中 的 成 员 可 以 出 现 不 止 一 次 。 词 袋 表 示 法 首先 把 文档 当 作 单词 的 
包 ( 即 多 重 集 )， 而 忽略 词 序 及 其 他 语言 结构 。 然 而 ， 用 于 文本 挖掘 的 表示 
法 通常 比 单纯 计算 词 频 更 加 复杂 ， 下 文 会 介绍 。 




























































































那么 ， 如 果 每 个 单词 都 有 可 能 是 特征 ， 那 么 文档 的 特征 值 又 是 什么 ?有 很 多 对 应 方法 ， 其 
中 最 基本 的 方法 将 每 个 单词 视 作 一 个 语 符 ， 并 把 每 篇 文档 用 1 (文档 中 存在 该 语 符 ) 或 0 
(文档 中 不 存在 该 语 符 ) 表示 。 该 方法 将 文档 简化 为 其 中 所 包含 的 一 组 单词 。 


10.3.2 ian 


下 一 步 是 用 文档 中 的 字数 〈 词 频 ) 代替 0 或 1， 这 能 区 分 单词 使 用 的 次 数 。 在 某 些 应 用 场 
景 中 ， 词 语 的 重要 性 应 随 其 在 文档 中 出 现 的 次 数 增多 而 提升 。 这 就 叫 作词 频 表 示 法 。 请 思 
考 表 10-1 中 三 个 非常 简单 的 句子 (文档 )。 















































注 1: body 的 拉丁 文 。 复 数 形式 为 corpora。 
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表 10-1: 三 篇 简单 文档 
dl jazz music has a swing rhythm 


d2 swing is hard to explain 


d3 swing rhythm is a natural rhythm 
每 个 句子 被 视 为 一 篇 独立 的 文档 。 袋 法 对 其 词 频 进行 整理 后 ， 会 形成 如 表 10-2 的 表格 。 
表 10-2: 词语 计数 表示 法 


a explain hard has is jazz music natural rhythm swing to 














dl 1 0 0 1 0 1 1 0 1 1 0 
d2 0 1 1 0 1 0 0 0 0 1 1 


ds 1 0 0 0 10 0 1 2 1 0 


一 般 在 把 单词 写 和 表格 前 ， 要 做 一 些 基本 处 理 。 再 思考 以 下 更 复杂 的 样本 文档 : 


Microsoft Corp and Skype Global today announced that they have entered into a 

















definitive agreement under which Microsoft will acquire Skype, the leading Internet 
communications company, for $8.5 billion in cash from the investor group led by Silver 
Lake. The agreement has been approved by the boards of directors of both Microsoft 
and Skype. 


表 10-3 把 文档 简化 为 词 频 表 示 法 的 形式 。 
表 10-3: 经 过 标准 化 和 词 干 提取 后 的 词语 ， 按 频率 排序 
词语 ”计数 词语 ë 计数 词语 计数 ”词语 HA 











Skype 3 microsoft 3 agreement 2 global 1 
approv 1 announc 1 acquir 1 lead 1 
definit 1 lake 1 communic 1 internet 1 
board 1 led 1 director 1 corp 1 
compani 1 investor 1 silver 1 billion 1 


为 了 将 样本 文档 转化 为 上 述 表 格 ， 我 们 执行 了 以 下 步骤 。 


。 首先 ， 统 一 字母 的 大 小 写 ， 将 每 个 单词 都 变 为 小 写 ， 从 而 使 Skype 和 SKYPE 相同 。 医 

为 由 大 小 写 不 同 而 产生 的 单词 变 体 非常 常见 〈 比 如 iPhone, iphone 和 IPHONE)， 所 以 
一 大 小 写 一 般 非常 必要 

。 然后 ， 对 一 些 单词 进行 词 干 提取 ， 去 除 它们 的 后 级 ， 使 类 似 于 announces, announced fil 
announcing 的 这 样 动词 全 都 转化 为 announc。 同样 ,名 词 的 复数 形式 也 要 转化 为 单数 形式 ， 
因此 文中 的 directors 在 表格 中 变 为 了 director, 

。 最 后 ， 删 除 停 用 词 。 停 用 词 是 在 英语 (或 任何 一 种 需要 解析 的 语言 ) 中 极其 常见 的 词 ， 
比如 the、and、of 和 on， 一 般 需 要 删除 。 

注意 ， 文 中 的 “$85” 被 删 掉 了 。 是 否 应 该 如 此 呢 ? 尽管 数字 通常 被 视 作 文本 处 理 中 不 重 

要 的 细节 ， 但 这 应 根据 表示 法 的 目的 来 决定 。 你 可 以 想 想 ，“4TB” 和 “1Q13” 之 类 的 术 

语 在 哪些 语 境 下 富 无 意义 ， 在 哪些 语 境 下 又 至 关 重 要 。 





















































194 | 第 10 章 


随意 删除 停 用 词 

提醒 一 句 : 停 用 词 并 不 总 是 需要 删除 ， 比 如 ， 这 些 词 在 标题 中 就 至 关 重 要 。 
像 Cormac McCarthy 的 The Road (一 对 父子 在 世界 末日 后 求生 的 故事 ) 就 与 
John Kerouac 的 著名 小 说 On the Road 大 相 人 径 庭 ， 而 不 加 考虑 地 直接 删除 停 用 
词 将 导致 两 者 没有 区 别 。 同 样 ， 最 近 上 映 的 惊悚 片 Stoker 也 不 应 与 1935 年 
的 喜剧 电影 The Stoker 混淆 。? 























表 10-3 展示 了 词语 的 原始 计数 。 但 是 一 些 系统 不 会 使 用 原始 计数 ， 而 是 会 根据 文档 长 度 ， 
对 词 频 进行 标准 化 。 使 用 词 频 的 目的 是 表示 词语 与 文档 的 相关 性 。 因 为 长 文档 的 单词 往往 
比 短文 档 多 ， 所 以 单词 的 出 现 次 数 也 更 多 。 但 这 并 不 意味 着 长 文档 比 短文 档 更 重要 ， 或 相 
关 性 更 强 。 为 了 根据 文档 长 度 进行 校正 ， 需 要 用 一 些 方法 对 原始 词 频 进行 标准 化 ， 比 如 将 
其 除 以 文档 的 总 词 数 。 


10.3.3 ESAME: 逆 文 档 频 率 

既然 词 频 度量 的 是 一 个 词语 在 一 篇 文档 中 的 普遍 程度 ， 那 么 在 决定 词语 的 权重 时 ， 我 们 可 
能 还 想 知 道 该 词 在 整个 语料库 中 的 普遍 程度 。 这 个 问题 有 两 种 相反 的 思考 方式 。 
首先 ， 一 个 词语 不 能 太 军 见 。 如 果 一 个 不 常见 的 单词 preensile 仅 在 语料库 的 一 篇 文档 里 
出 现 过 ， 那 么 这 个 词 重要 吗 ? 这 要 视 应 用 情景 而 定 。 在 检索 时 ， 这 个 词 可 能 很 重要 ， 因 为 
用 户 寻找 的 是 这 个 确切 的 词 ， 而 在 分 类 时 ， 却 没 必 要 保留 一 个 只 出 现 过 一 次 的 词 ， 因 为 它 
绝对 不 可 能 成 为 一 个 有 意义 的 簇 的 构成 依据 。 因 而 ， 文 本 处 理 系统 通常 会 给 某 词 语 必须 在 
其 中 出 现 的 文档 数 设 定 一 个 较 小 的 (任意 的 ) 下 限 。 

其 次 ， 从 相反 角度 考虑 ， 一 个 词语 也 不 能 太 常 见 。 在 每 篇 文档 里 都 出 现 的 词语 不 但 对 分 类 
没有 帮助 ( 它 分 辨 不 出 什么 来 )， 而 且 也 不 会 是 徐 的 构成 依据 (不然 整个 语料库 都 会 聚 在 
一 起 )。 

过 于 常用 的 词语 通常 会 被 删 掉 ， 而 实现 方法 之 一 是 给 可 出 现 词语 的 文档 数 (或 文档 所 占 比 
例 ) 设 定 一 个 任意 的 上 限 。 

除了 给 词 频 设 定 上 下 限 ， 许 多 系统 还 会 考虑 词语 在 语料库 中 的 分 布 。 包 含 一 个 词语 的 文档 
越 少 ， 则 在 这 些 文档 中 ， 该 词语 的 重要 性 就 可 能 越 高 。 词 语 上 的 稀 玻 度 一 般 用 逆 文 档 频率 
(IDF) 来 度量 ， 如 公式 10-1 所 示 。 


公式 10-1: 词语 的 逆 文 档 频 率 











u 




































































文档 总 数 
包含 的 文档 数 
一 个 词语 越 罕见 ， 其 DF 就 越 高 。 图 10-1 中 ,语料库 共 含 100 篇 文档 ， 而 IDFA 为 上 出 现 
过 的 文档 数目 的 函数 。 如 你 所 见 ， 当 词语 非常 罕见 时 (在 图 像 的 最 左 侧 )，IDF 极 高 。 而 





IDF(t) =14 oe 



































TE 2: 这 些 例子 都 来 自 一 款 流行 的 搜索 引擎 近期 对 影评 网 站 的 搜索 结果 。 不 是 每 个 人 都 会 注意 停 用 词 删 除 的 
问题 。 
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随 着 上 在 文档 中 越 来 越 常见 ，IDF 会 快速 下 降 ， 最 终 渐 近 于 1.0。 由 于 大 部 分 停 用 词 非常 党 
见 ， 因 而 其 IDF 通常 接近 1。 














40 60 
包含 1 的 文档 数 











10-1; 100 篇 文档 的 语料库 中 ， 词 语 1 的 IDF 


10.3.4 TFIDF 


有 一 种 非常 流行 的 文本 表示 法 是 词 频 (TF) 和 逆 文 档 频 率 (DF) 相 结 合 的 产物 ， 俗 称 
TFIDF。 给 定 文档 4， 词 语 1 的 TFIDF 值 的 计算 方法 是 : 


TFIDF(t, d) = TF(t, d) x IDF(#) 


注意 ，TFIDF 针对 的 是 单 篇 文档 (d), m IDF 则 依赖 整个 语料库 。 使 用 词 袋 表示 法 的 系统 
在 进行 词语 计数 前 ， 通 常 需要 提取 词 干 和 删除 停 用 词 。 由 文档 中 的 词语 计数 得 到 每 个 词语 
的 TF 值 ， 由 语料库 中 的 文档 计数 得 到 IDF 值 。 

因此 ， 每 篇 文档 都 变 成 了 一 个 特征 向 量 ， 而 语料库 则 是 这 些 特 征 向 量 的 集合 ， 可 用 于 数据 
挖掘 中 的 分 类 算法 、 聚 类 算法 或 检索 。 

因为 文档 中 含有 许多 可 能 具有 文本 表示 功能 的 词语 ， 所 以 经 常 要 用 到 特征 选择 。 特 征 选 择 
的 方法 有 很 多 ， 比 如 给 词语 计数 附加 最 小 国 值 或 最 大 闪 值 ， 或 按照 诸如 信息 增益 〈 详 见 
3.2.2 节 ) 这 样 的 指标 来 将 词语 按 重 要 程度 排序 ， 从 而 剔除 信息 增益 较 低 的 词话 。 

词 袋 文本 表示 法 把 文档 中 的 每 个 词 作 为 独立 的 潜在 关键 词 (特征 )， 然 后 基于 词 频 和 罕见 
程度 给 每 篇 文档 赋值 。 虽 然 TFIDF 是 一 种 常见 的 词语 值 表 示 法 ， 但 它 未 必 是 最 优 的 方法 。 
如 果 有 人 用 词 袋 表示 法 描述 对 语料库 的 挖掘， 那么 这 意味 着 他 把 每 个 词 视 为 独立 的 特征 。 
它们 可 以 是 二 值 型 、 词 频 或 TFIDF， 可 以 标准 化 ， 也 可 以 不 标准 化 。 虽 然 数据 科学 家 已 经 
培养 出 了 直觉 ， 可 以 找到 解决 给 定 文本 问题 的 最 佳 方案 ， 但 他 们 往往 会 首先 试验 不 同 的 表 
示 法 ， 看 看 哪个 的 结果 最 佳 。 
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10.4 示例 : BEB RR 


在 介绍 过 一 些 基 本 概念 后 ， 我 们 来 用 一 个 表示 爵士 音乐 家 的 有 具体 示例 来 说 明 它 们 。 本 例 

中 ， 我 们 将 思考 一 个 包含 15 PLAST E RAC SESE BES ABI Tr BRE) TEBE 

以 下 是 几 位 音乐 家 个 人 简介 的 片段 。 

口 Charlie Parker 

Charles “Charlie” Parker Jr., X EB? 5c Bri th Ze Be. VE He. Miles Davis 曾 说 : 
士 乐 历史 用 四 个 词 就 可 以 概括 : Louis Armstrong, Charlie Parker,” Parker 早期 有 着 

“新 兵 ” 的 昵称 ， 简 称 为 “ 兵 "， 这 个 昵称 一 直 跟 着 他 ， 并 且 多 次 激发 了 Parker 作曲 的 




















口 Duke Ellington 
Edward Kennedy “Duke” Ellington, $ HHK, FMA, AARP, H 
超过 1000 首 。《 波 士 顿 环 球 报 》 的 Bob Blumenthal 如 是 评价 他 :“ 在 Edward Kennedy 
Ellington 出 生 以 后 的 一 个 世纪 中 ， 无 论 美 国 还 是 其 他 国家 ， 都 没有 比 他 更 伟大 的 作曲 
家 。” 尽 管 ages ERED EPERERA, 但 其 涉足 的 音乐 流派 其 广 ， 包 含 布 
福音 、 电 影 配 乐 、 流 行 音乐 和 古典 音乐 等 。[…… ] 


QO Miles Davis 
Miles Dewey Davis II， 美 国 匣 士 音乐 家 、 小 号 手 、 乐 队 指挥 、 作 曲 家 ， 被 公认 为 20 世 
纪 最 有 具 影响 力 的 音乐 家 之 一 。Miles Davis 与 其 乐队 处 于 爵士 音乐 许多 重大 发 展 的 前 沿 ， 
AOE RR. BR, EER MARERA BR. [oe] 
尽管 该 语料库 只 有 15 篇 文档 ， 但 整个 语料库 及 其 词汇 却 庞 大 到 无 法 在 这 里 全 部 展示 〈 提 
取 词 干 和 删除 停 用 词 后 仍 有 将 近 2000 个 特征 )， 因 此 我 们 只 用 一 个 样本 来 说 明 。 思 考 以 下 
句子 :“Famous jazz saxophonist born in Kansas who played bebop and latin.”( 生 于 堪萨斯 的 
Fe BL eT SA. TELLER ET.) 如 果 把 这 句 话 输入 搜索 引擎 ， 它 
将 如 何 表示 ? 答案 是 ， 它 将 被 作为 文档 处 理 ， 也 会 经 历 许多 同样 的 步骤 。 
首先 ， 进 行 基 本 的 词 干 提取 。 虽 然 词 干 提取 的 方法 并 非 万 无 一 失 ， 有 可 能 把 Kansas 和 
famous 转化 为 kansa 和 famou (两 个 词 均 无 意义 )， 但 只 要 全 文保 持 一 致 ， 这 种 错误 就 无 伤 
大 雅 。 词 干 提取 的 结果 如 图 10-2 所 示 。 
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包含 停 用 词 的 词语 值 














图 10-2: 词 干 提取 后 ， 查 询 语 名 “Famous jazz saxophonist born in Kansas who played bebop and 
latin” 的 表示 


接 下 来 ， 删 除 停 用 词 (in 和 and) ， 并 将 单词 根据 文档 长 度 标 准 化 。 结 果 如 图 10-3 所 示 。 

















只 含 词语 词 频 的 词语 值 


值 














10-3: 删除 停 用 词 并 对 词 频 进 行 标准 化 后 ， 查 询 语句 “Famous jazz saxophonist born in Kansas 
who played bebop and latin” 的 表示 
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如 果 到 此 为 止 ， 那 么 这 些 值 通常 会 被 用 作词 频 (TF) 的 特征 值 。 但 是 此 处 我 们 会 通过 把 每 
个 词语 的 TF 值 与 IDF 值 相 乘 ， 得 到 完整 的 TFIDF 表示 。 如 我 们 所 说 ， 该 指标 会 提升 罕见 
单词 的 权重 。 

因为 jazz 和 play 在 事 士 音乐 家 个 人 简介 语料库 中 出 现 得 非常 频繁 ， 几 乎 可 以 视 作 停 用 词 ， 
所 以 其 权重 没有 得 到 IDF 的 提升 。 

因为 TFIDF 值 最 高 的 词语 (latin, famous 和 kansas) 是 语料库 中 最 罕见 的 词 ， 所 以 它们 在 
查询 语句 中 的 权重 最 高 。 最 后 ， 重 新 对 词语 进行 标准 化 ， 得 到 最 终 的 TFIDF 权重 ， 如 
图 10-4 所 示 。 这 就 是 样本 “文档 ”( 查 询 语 句 ) 的 特征 向 量 表示 。 























词语 值 一 一 TFIDF 


0.8 














图 10-4: 查询 “Famous jazz saxophonist born in Kansas who played bebop and latin” 的 最 终 
TFIDF 表示 


看 过 这 篇 小 “文档 ”的 表示 形式 后 ， 我 们 来 用 它 做 点 什么 。 还 记得 第 6 章 中 探讨 的 用 距离 
测度 进行 最 近邻 检索 吗 ? 当时 我 们 展示 了 一 个 检索 相似 威士忌 的 例子 ， 现 在 也 可 以 这 么 
故 。 如 果 把 样本 句子 “Famous jazz saxophonist born in Kansas who played bebop and latin” 
输入 简易 的 搜索 引擎 ， 该 引擎 会 如 何 运 作 ? 首先 ， 它 会 把 这 名 查询 转化 为 TFIDF 表示 ， 如 
图 10-4 所 示 。 我 们 已 经 计算 过 了 每 篇 历 士 音乐 家 个 人 简介 的 TFIDF 表示 ， 现 在 只 需要 再 
计算 出 这 名 查询 与 每 篇 个 人 简介 的 相似 度 ， 然 后 选择 最 相似 的 就 可 以 了 ! 

为 此 ， 我 们 选用 6.3.2 节 中 探讨 过 的 余弦 相似 性 国 数 〈 见 公式 6-5). RAIEK 
类 中 人 常用 于 度量 文档 之 间 的 距离 。 

如 表 10-4 所 示 ， 与 查询 文档 最 匹配 的 画 士 音乐 家 是 Charlie Parker， 这 个 人 的 确 是 一 位 生 
于 堪萨斯 的 栈 克 斯 管 演奏 家 ， 他 演奏 比 波 普 萎 士 乐 ， 有 时 也 会 结合 其 他 音乐 流派 ， 包 括 拉 
丁 。 这 些 在 他 的 简介 中 都 有 所 提 及 。 
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3210-4. 每 篇 音乐 家 文本 与 查询 “Famous jazz saxophonist born in Kansas 
who played bebop and latin” 的 相似 度 ， 按 相似 度 降序 排序 





音乐 家 相似 度 音乐 家 相似 度 
Charlie Parker 0.135 Count Basie 0.119 
Dizzie Gillespie 0.086 John Coltrane 0.079 
Art Tatum 0.050 Miles Davis 0.050 
Clark Terry 0.047 Sun Ra 0.030 
Dave Brubeck 0.027 Nina Simone 0.026 
Thelonius Monk 0.025 Fats Waller 0.020 
Charles Mingus 0.019 Duke Ellington 0.017 
Benny Goodman 0.016 Louis Armstrong 0.012 
10.5 *IDFAIAH KA 
前 方 有 技术 细节 ! 


在 刚 开始 讨论 预测 建 模 时 ，3.2.1 WTA TE, Ba 〈 且 记忆 力 强 ) 的 
读者 可 能 发 现 了 ， 逆 文档 频率 和 录 有 些 相似 ， 两 者 似乎 都 能 度量 一 个 集合 中 
属性 的 “混合 ”程度 。 两 者 之 间 是否 有 联系 ? 它们 是 不 是 相同 的 概念 ? 答案 
是 ， 它 们 虽然 并 不 相同 ， 但 的 确 相 关 。 本 节 将 展示 两 者 的 联系 ， 如 果 对 此 不 
感 兴趣 ， 你 可 以 跳 过 本 节 。 


= 














10-5 展示 了 一 些 与 我 们 将 要 探讨 的 公式 相关 的 图 像 。 首 先 ， 假 设 :是 文档 集中 的 一 个 词 
语 ， 那 么 z 在 文档 集中 出 现 的 概率 是 多 少 ? 我 们 可 以 这 样 估计 : 














_ 包含 1 的 文档 数 
DDO)=— ae 
文档 总 数 
为 简化 问题 ， 自 此 我 们 将 用 p 替代 估计 值 p(D。 回 忆 一 下 ， 词 语 1 的 IDF 值 的 定义 是 : 
文档 总 数 
IDF(1)=1+1 
2 oe ee 











1 是 个 常数 ， 可 以 直接 忽略 ， 然 后 你 会 发 现 ，IDF(D 其 实 就 是 log(1/p)， 而 在 代数 学 中 ， 
log(1/p) 等 于 -log(p)。 

再 次 思考 含有 词语 1 的 文档 集 ， 其 中 每 篇 文档 要 么 含有 1 (概率 为 p)， 要 么 不 含 (概率 为 
1 一 p)。 我 们 用 一 个 伪 镜 像 词语 not 1 表示 文档 中 不 含 1 的 概率 。 那 么 该 词语 的 IDF 值 是 多 
DWE? 如 下 : 











IDF(not_t) = log1/(1—p) =—log(1—p) 
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@ 10-5: 与 IDF( #0 IDF(not_t) BRAAGENSIESR 











先 看 图 10-5 中 左上 角 的 图 像 ， 正 如 我 们 所 料 ， 其 中 两 条 图 线 互 为 镜像 。 然 后 再 回忆 公式 3-1 
IAE, HFA p =1-p MOBS, HA: 
Hi = — p; log (pi) ~ p: log (p2) 

本 例 中 ， 二 值 型 词语 1 要 么 出 现在 文档 中 (概率 为 p)， 要 么 不 出 现 (概率 为 1 - p)， 因 而 
根据 1 划分 的 文档 集 的 炉 的 定义 式 可 简化 为 : 

MO =— p log (p) — (1 — p) log (1 -p) 
HE, AYE IDFA 和 IDF(not 7 的 定义 ， 我 们 可 以 开始 替换 和 简化 了 (可 参考 图 10-5， 碳 
上 角 的 图 包含 许多 这 样 的 子 表达 式 )。 
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Ii(= — plog(p) - (1— p)log(1— p) 
= p-IDF(t)—(1— p)[-IDF(not_ ù] 
= p-IDF(t)+(1— p)[IDF(not_ Ò] 
你 会 发 现 ， 现 在 这 个 式 子 是 计算 期 望 值 的 形式 了 ! 我 们 可 以 根据 t 在 语料库 中 出 现 的 概率 ， 
HERRE IDFA 和 IDF(not 力 的 期 望 值 的 形式 。 图 10-5 左下 角 的 图 也 的 确 和 图 3-3 中 
AORE HH AEF 


10.6 词 袋 模型 之 外 的 方法 

基本 的 词 袋 模型 方法 相对 简单 ， 却 有 许多 可 取 之 处 。 它 不 需要 复杂 的 解析 能 力 和 其 他 语 
言 学 分 析 ， 却 在 许多 工作 中 表现 惊艳 ， 因 而 往往 是 数据 科学 家 解决 新 文本 挖掘 问题 时 的 
首选 。 

但 仍 有 一 些 应 用 场景 是 词 袋 模型 不 太 适 用 的 ， 此 时 就 需要 采用 更 复杂 的 技术 。 本 节 将 简要 
介绍 其 中 几 种 。 



































10.6.1 n-grams 序 列 


如 前 文 所 示 ， 词 袋 表 示 法 将 每 个 单词 作为 一 个 词语 ， 完 全 忽略 词 序 。 但 有 时 候 ， 词 序 也 
很 重要 ， 其 信息 需要 在 表示 中 保留 。 增 加 复杂 度 的 下 一 步 就 是 把 相 邻 的 单词 序列 也 视 作 
词语 ， 比 如 可 以 将 相 邻 的 两 个 单词 视 为 词语 ， 这 样 一 来 ， 文 档 中 包含 的 一 名 “The quick 
brown fox jumps” 就 可 以 变 为 一 个 集合 ， 包 含 单词 {quick, brown, fox, jumps}， 加 上 表征 
“quick brown”“brown fox” 和 “fox jumps”. 


这 种 通用 表示 手法 叫 作 n-grams。 相 邻 的 两 个 单词 通常 叫 作 2-grams。 如 果 一 名 数据 科学 家 
提 到 把 文本 表示 为 “最 大 为 3 的 n-grams 词 袋 "， 他 指 的 是 把 每 篇 文档 中 的 单个 单词 、 相 邻 
两 个 单词 和 相 邻 三 个 单词 组 作为 文档 特征 对 文档 进行 表示 。 

n-grams 适用 于 特定 词组 比较 重要 ， 而 组 成 词组 的 单词 却 意 义 不 大 的 情况 。 比 如 在 商业 
新 闻 中 ，3-gram 的 “exceed_analyst_ expectation” 就 比分 别 出 现 的 analyst, expectation 和 
exceed 有 意义 得 多 。n-grams 的 优势 是 容易 生成 ， 不 要 求 使 用 者 掌握 语言 学 知识 或 复杂 的 
解析 算法 。 

n-grams 的 主要 劣势 是 其 极 大 地 扩大 了 特征 集 。 由 于 文档 中 存在 许多 相 邻 的 两 个 单词 和 许 
多 相 邻 的 三 个 单词 ， 因 而 所 产生 的 特征 的 数量 会 迅速 增加 。 而 且 ， 其 中 许多 单词 组 非常 罕 
见 ， 可 能 只 在 语料库 中 出 现 过 一 次 。 如 果 要 在 数据 挖掘 中 应 用 n-grams， 就 必须 额外 考虑 
处 理 大 量 特征 的 问题 (比如 特征 选择 ) 和 计算 存储 空间 的 问题 。 


10.6.2 命名 实体 提取 


有 时 我 们 还 需要 继续 提升 短语 提取 的 复杂 度 。 我 们 需要 识别 文档 中 的 常见 命名 实体 。 
Silicon Valley, New York Mets, Department of the Interior 和 Game of Thrones 都 是 重要 的 短 
语 ， 虽 然 这 些 短 语 中 的 单词 也 可 能 有 意义 ， 但 并 不 重要 ， 而 它们 在 生成 独一无二 的 命名 实 
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体 后 ， 就 拥有 了 有 趣 的 特性 。 基 础 的 词 袋 表 示 法 〈 甚 至 ngrams) 并 不 能 捕获 这 些 有 趣 特 
性 ， 因 而 我 们 想 用 一 个 预 处 理 组 件 来 得 知 何 时 单词 序列 中 包含 合适 的 名 称 。 


许多 文本 处 理工 具 包 都 包含 某 种 命名 实体 提取 器 ， 它 们 通常 可 以 处 理 原 始 文本 ， 并 提取 
出 被 标 广 为 人 名 或 组 织 名 的 短语 。 举 个 例子 ， 有 时 在 经 过 标准 化 后 ，HP、H-P 和 Hewlett- 
Packard 等 短语 都 与 惠普 公司 的 常见 表示 有 关 。 


词 袋 模型 和 mn-grams 都 按照 空格 和 标点 对 文本 进行 划分 ， 而 命名 实体 提取 器 则 属于 知识 密 
集 型 。 为 了 取得 比较 好 的 效果 ， 必 须 先 在 大 型 语料库 上 训练 它 ， 或 手动 为 其 录入 大 量 命名 
信息 。 没 有 语言 学 原则 规定 “奥克兰 突袭 者 ”一 定 指 代 那 支 职业 足球 队 ， 而 非 一 群 加 利 福 
尼 亚 激进 投资 者 。 这 样 的 知识 需要 经 过 学 习 ， 或 被 手动 未 入。 实体 识别 的 特性 各 不 相同 ， 
有 的 提取 器 专门 针对 某 个 特定 专业 领域 ， 如 工业 、 政 府 和 流行 文化 等 。 


10.6.3 ”主题 模型 


我 们 已 经 学 习 了 直接 根据 文档 中 的 单词 (或 命名 实体 ) 构建 的 模型 ， 该 模型 (不管 最 后 如 
何 ) 直接 涉及 单词 。 这 样 直接 的 模型 虽然 学 习 起 来 相对 高 效 ， 但 并 非 总 是 最 优 的 选择 。 由 
于 语言 和 文档 的 复杂 性 ， 有 时 我 们 想 在 文档 和 模型 之 间 额 外 加 入 一 层 ， 在 关于 文本 的 语 境 
下 ， 我 们 称 这 层 为 主题 层 。 
主题 层 的 中 心思 想 是 ， 首 先 对 语料库 的 主题 集合 分 别 建 模 。 像 之 前 一 样 ， 我 们 把 每 篇 文档 
视 作 一 个 单词 序列 ， 但 是 这 次 不 直接 把 单词 用 于 最 后 的 分 类 器 ， 而 把 单词 映射 到 一 或 多 个 
主题 中 。 这 些 主题 同样 需要 从 数据 中 学 习 (通常 是 通过 无 监督 的 数据 挖 据 )。 而 最 终 的 分 
类 器 则 依据 中 间 的 主题 来 定义 ， 而 非 单词 。 设 定 主题 层 的 一 个 优势 是 (比如 在 搜索 引擎 
中 ) 查询 可 以 使 用 与 某 文 档 中 特定 单词 并 不 完全 匹配 的 词语 。 只 要 所 查询 的 词语 映射 到 了 
正确 的 主题 (可 以 是 多 个 主题 ) ， 访 文档 就 仍然 可 被 认为 与 该 查询 相关 。 
构建 主题 模型 的 一 般 方法 包括 矩阵 因子 分 解 方法 〈 如 潜在 语义 索引 ) 和 概率 主题 模型 (如 
隐 含 狄 利克 雷 分 配 )。 这 些 方法 中 的 数学 知识 超出 了 本 书 的 范围 ， 但 你 可 以 把 主题 层 想象 
成 单词 的 聚 类 。 在 主题 建 模 中 ， 词 语 与 主题 相关 联 ， 词 语 权重 则 通过 主题 建 模 过 程 学 习 。 
与 聚 类 相同 ， 主 题 从 数据 的 统计 规律 性 中 显现 。 同 样 ， 这 些 主题 既 不 一 定 容易 理解 ， 也 不 
一 定 为 我 们 所 熟知 (尽管 在 很 多 情况 下 它们 是 这 样 的 )。 
主题 是 隐 含 信息 
主题 模型 是 一 种 隐 含 信息 模型 ， 第 12 章 将 (与 电影 推荐 示例 一 起 ) 进一步 
探讨 它 。 隐 含 信息 可 以 理解 为 信息 中 一 种 未 被 观测 到 的 中 间 层 ， 处 于 输入 层 
与 输出 层 之 间 。 寻 找 文本 中 的 隐 含 主题 和 寻找 观 影 者 的 隐 含 “品味 ”维度 这 
两 种 技术 在 本 质 上 是 相同 的 。 在 文本 中 ， 不 仅 要 将 单词 映射 到 (未 被 观测 到 
的 ) 主题 ， 还 要 将 主题 映射 到 文档 ， 而 这 昌 然 使 得 整个 模型 更 加 复杂 、 学 习 
成 本 更 高 ， 但 也 会 使 其 性 能 更 好 。 另 外 ， 隐 含 信息 本 身 往往 就 很 有 趣 、 很 有 
用 (你 将 在 第 12 章 的 电影 推荐 示例 中 再 次 看 到 )。 
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10.7 示例 : 通过 挖掘 新 闻 报 道 预 测 股价 变动 


为 阐述 文本 挖掘 中 的 一 些 问题 ， 我 们 将 引入 一 个 新 的 预测 挖掘 任务 : 根据 新 闻 报 道 的 文本 
预测 股价 波动 。 大 体 上 说 ， 我 们 要 根据 新 闻 报道 预测 股票 市 场 。 这 个 任务 包含 了 许多 关于 
文本 处 理 和 问题 界定 的 通用 元 素 。 


10.7.1 任务 

股票 市 场 在 每 个 交易 日 都 会 有 所 变动 ， 企 业 会 进行 决策 并 宣布 决策 ， 如 并 购 、 发 布 新 产 
品 、 收 益 预期 等 ， 而 金融 新 闻 行 业 会 对 此 进行 报道 。 在 读 过 这 些 新 闻 报 道 后 ， 投 资 者 可 能 
会 改变 对 报道 中 所 提 及 公司 的 前 景 的 预期 ， 因 而 交易 股票 ， 导 致 股价 变化 。 举 个 例子 ， 收 
购 、 收 益 、 监 管制 度 变化 之 类 的 公告 之 所 以 会 影响 股价 ， 是 因为 它们 或 是 直接 影响 了 潜在 
的 收益 ， 或 是 影响 了 交易 者 对 其 他 交易 者 收购 价格 的 判断 。 


当然 ， 以 上 针对 金融 市 场 的 观点 是 高 度 简化 的 。 虽 然 如 此 ， 但 是 这 已 经 足够 布置 一 个 基本 
任务 了 。 我 们 希望 根据 金融 新 闻 预 测 股价 变动 。 根 据 最 终 目的 ， 有 许多 方法 可 以 完成 该 任 
务 。 如 果 想 根据 金融 新 闻 进行 交易 (理想 情况 下 ) 就 需要 根据 一 连 串 新 闻 ， 提 前 准确 地 预 
测 某 公 司 的 股价 变动 。 然 而 在 现实 中 ， 股 价 变动 的 因素 错综复杂 ， 而 其 中 一 些 并 没有 在 新 
闻 报 道中 体现 。 

因此 ， 我 们 将 为 一 个 比较 合适 的 目的 挖掘 新 闻 报 道 一 一 新 闻 推荐 。 从 这 个 角度 看 ， 有 大 量 久 
市 场 新 闻 ， 其 中 有 的 很 有 趣 ， 而 大 部 分 则 很 无 聊 。 我 们 想 用 预测 文本 挖掘 来 推荐 值得 花 时 间 
研究 的 有 趣 新 闻 报 道 ， 此 处 的 “有 趣 新 闻 报 道 ” 指 的 是 “有 可 能 导致 股价 重大 变化 的 新 闻 ”。 


为 使 问题 更 易于 处 理 (实际 上 ， 这 个 任务 既是 一 个 很 好 的 问题 界定 范例 ， 也 是 一 个 很 好 的 
文本 挖掘 范例 ) ， 我 们 必须 将 其 进一步 简化 。 以 下 是 一 些 问 题 及 其 简化 假设 。 


(1) 提 前 很 长 时 间 预 测 新 闻 效 果 是 很 难 的 。 由 于 股票 太 多 ， 因 而 新 闻 发 布 会 很 频繁 ， 而 市 场 
会 随 之 快速 做 出 反应 。 举 个 例子 ， 根 据 今 天 发 布 的 新 闻 ， 预 测 股 价 一 周 之 后 的 变动 就 并 
不 现实 。 因 此 ， 我 们 将 尝试 预测 新 闻 报 道 当 天 对 股价 的 影响 。 


(2) 准确 预测 股价 是 很 难 的 ， 因 此 我 们 只 需 正确 预测 股价 变化 方向 : 上 涨 、 下 跌 或 不 变 。 寻 
实 上 ， 我 们 将 进一步 把 方向 简化 成 变化 和 不 变 。 这 样 的 简化 对 示例 应 用 非常 有 效 ， 如 
某 新 闻 报 道 有 可 能 引发 或 预示 股价 变动 ， 那 么 我 们 就 推荐 它 。 

(3) 预测 股价 的 微小 变动 是 很 难 的 ， 因 此 我 们 将 只 预测 较 大 的 变动 。 这 样 虽然 会 让 所 获得 的 

事件 数 减少 ， 但 会 使 得 信号 更 加 清晰 。 因 此 ， 我 们 将 故意 忽略 微小 的 变动 。 


(A 将 股价 变动 与 特定 的 新 闻 报 道 关 联 起 来 是 很 难 的 ， 原 则 上 ， 任 何 新 闻 都 有 可 能 影响 股 
价 。 如 果 接 受 这 个 理念 ， 就 会 遇 到 一 个 很 严重 的 信任 分 配 问 题 : 怎样 从 今天 上 千 条 新 闻 
中 确定 哪 一 条 是 相关 的 呢 ? 因此 我 们 必须 缩小 “因果 半径 . 

我 们 将 假设 ， 股 价 仅 受 那些 提 及 这 支 股票 的 新 闻 影 响 。 当 然 ， 这 并 不 正确 ， 因 为 虽然 企业 

会 受 竞争 者 、 顾 客 和 客户 的 行为 影响 ， 但 是 很 少 有 新 闻 能 提 及 全 部 因素 。 但 是 在 初次 尝试 

中 ， 这 种 简化 假设 可 以 接受 。 
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还 有 一 些 细节 需要 确定 。 思 考 上 面 第 3 条 :“ 较 大 ”的 变化 是 什么 ?我们 可 以 (有些 随意 
地 ) 把 靖 值 定 为 5%， 如 果 股 价 涨幅 不 低 于 5%， 就 称 为 碳 升 ， 如 果 跌 幅 不 低 于 5%， 就 称 
为 暴跌 ， 若 介 于 两 者 之 间 ， 就 称 为 稳定 。 但 这 样 有 点 过 于 严格 了 ， 因 为 4.9% 的 变化 和 5% 
的 变化 区 别 并 不 大 。 因 此 ， 我 们 将 指定 一 些 “ 灰 色 区 域 "， 使 类 之 间 更 加 可 分 ( 见 图 10-6). 
股价 只 有 变化 幅度 处 于 2.5% 到 -2.5% 之 间 ， 才 称 为 稳定 ， 如 果 变 化 幅度 处 于 2.5% 到 5% 
或 -2.5% 到 -5$% 之 间 ， 则 不 予 标记 。 
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10-6: 股价 变化 百分比 与 对 应 的 标签 


根据 本 例 的 目的 ， 我 们 将 构造 一 个 二 元 分 类 问题 ， 将 “ 毅 升 ”和 “暴跌 ”合并 为 变化 ， 作 
为 正 类 ， 将 稳定 〈 不 变 ) 作为 负 类 。 


10.7.2 ”数据 


我 们 即将 使 用 的 数据 中 包含 两 个 单独 的 时 间 序 列 : 新 闻 报道 (文本 文档 ) 的 时 间 序 列 和 其 
对 应 的 每 日 股价 的 时 间 序 列 。 互 联网 上 有 很 多 金融 数据 源 ， 如 谷歌 金融 和 雅虎 金融 。 举 
个 例子 ， 如 果 你 想 找 苹果 计算 机 公司 的 相关 新 闻 报 道 ， 那 么 查看 雅虎 新 闻 的 网 页 (http:/ 
finance.yahoo.com/q?s=AAPL) 即 可 。 雅 彪 集合 的 新 闻 报道 来 自 众 多 新 闻 源 ， 如 路 透 社 、 网 
络 公 关 和 福布斯 。 历 史 股 价 信息 则 可 以 通过 很 多 信息 源 获 取 ， 如 谷歌 金融 。 


我 们 要 挖掘 的 数据 是 1999 年 起 纽约 证 券 交 易 所 和 纳 斯 达 克 列 出 的 股票 的 历史 数据 ， 该 数 
据 之 前 曾 用 于 另 一 个 研究 (Fawcett & Provost, 1999) 。 该 数据 包含 股票 在 主要 交易 所 的 开 
盘 价 和 收盘 价 ， 以 及 一 整 年 的 财经 新 闻 的 大 型 纲要 ， 共 有 近 36 000 篇 。 以 下 是 语料库 中 的 
一 篇 新 闻 样 本 : 
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1999-03-30 14:45:00 WALTHAM, Mass. (美国 商业 新 闻 社 ) ——1999 年 3 
月 30 日 一 一 Summit 科技 有 限 公司 ( 纳 斯 达 克 代 码 : BEAM ) ` -5 Autonomous 技 
RAF ( 纳 斯 达 克 代 码 : ATC) “近日 宣布 ，Summit 科技 收购 Autonomous 技术 
的 联合 代理 / 招股 说 明 书 被 证 券 交 易 委 员 会 宣布 有 效 。 文 件 复印 件 已 送 至 两 家 企 
业 股 东 手 中 。“ 我 们 很 高 兴 看 到 这 些 代 理 材料 生效 ， 也 期 待 4 月 29 日 的 股东 大 
会 。 Summit 科技 的 首席 执行 官 Robert Palmisano 说 。 
与 许多 原始 文本 一 样 ， 该 文本 中 的 材料 非常 混杂 ， 因 为 它 是 为 人 类 阅读 而 写 ， 而 非 为 机 器 
解析 而 写 (更 多 细 市 可 见 后 文中 “杂乱 的 新 闻 ”)。 其 中 包含 日 期 和 时 间 、 新 闻 来 源 (路 透 
社 )、 股 要 代码 和 链接 ( 纳 斯 达 克 代 码 : BEAM) ， 以 及 许多 与 新 闻 关 系 不 大 的 背景 材料 。 
我 们 为 这 样 的 新 闻 标注 其 中 提 及 的 股票 的 标签 。 



































杂乱 的 新 闻 
金融 新 闻 语 料 库 实 际 上 比 这 篇 报道 杂乱 得 多 ,原因 有 如 下 几 个 。 
首先 ， 金 融 新 闻 种 类 广泛 ， 包 括 收 益 报告 、 分 析 师 评估 (“我 们 要 重申 对 苹果 的 “ 强 
力 买 入 ”评级 ”)、 市 场 评论 (“ 今 展 的 其 他 市 场 推 手 股 票 包括 Lycos 公司 和 Staples A 
司 ”)、 证 券 交 易 委 员 会 档案 、 财 务 资产 负债 表 等 。 企 业 出 现在 报道 中 的 原因 有 很 多 ， 
而 一 篇 文档 (新 闻 ) 可 能 会 包含 当日 许多 无 关 新 闻 的 导语 。 
其 次 ， 新 闻 格 式 多 种 多 样 ， 有 的 新 闻 是 列表 数据 ， 有 的 则 是 多 段 “ 今 日 头条 新 闻 ” 的 
格式 ， 不 一 而 足 。 文 中 的 含义 要 根据 上 下 文理 解 ， 而 文本 处 理 系统 可 做 不 到 这 一 点 。 
最 后 ， 股 票 标 签 并 不 完美 。 可 能 是 由 于 标签 标注 过 于 自由 ， 叶 致 菜 些 新 闻 即 使 没有 提 
到 某 股票 ， 与 该 股票 相关 的 新 闻 推 送 也 会 包括 该 新 闻 。 一 个 极端 例子 是 ， 美 国 博客 主 
Perez Hilton 用 “cray cray” 来 表达 “疯狂 ”或 “恶心 ”的 含义 ， 竞 然 导 致 他 的 一 些 博 
文 和 Cray 计算 机 公司 挂钩 。 
简 而 言 之 ， 如 果 不 仔细 阅读 文档 ， 那 么 它 与 股票 的 关联 可 能 就 不 够 清晰 。 虽 然 进 行 深 
入 解析 (或 至 少 新 闻 划 分 ) 之 后 ， 文 档 中 的 一 些 噪声 可 以 被 消除 ， 但 词 袋 模型 (甚至 
命名 实体 提取 ) 并 不 能 删除 所 有 的 噪声 。 














10-7 展示 了 我 们 希望 处 理 的 数据 ， 它 们 基本 上 是 两 组 相关 联 的 时 间 序 列 。 该 图 是 Summit 
科技 有 限 公司 一 一 一 家 激光 视力 矫正 准 分 子 激光 系统 制造 商 的 股价 变动 图 。 图 中 一 些 点 标 
广 了 当日 新 闻 的 标号 。 图 的 下 方 则 是 每 篇 新 闻 的 总 结 。 

















注 3: 下 称 “Summit 科技 "。 一 一 译 者 注 
注 4: 下 称 “Autonomous 技术 ”。 一 一 译 者 注 
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10-7; Summit 科技 有 限 公司 〈 纳 斯 达 克 代 码 ， BEAM) 的 股价 变动 图 ， 附 加 新 闻 摘要 的 注释 


(1) Summit 科技 宣布 ， 堆 至 1998 年 12 月 31 日， 三 个 月 实现 收益 2240 万 美元 ， 同 比 增 长 13%。 

(2) Summit 科技 与 Autonomous 技术 公司 宣布 ，Summit 科技 收购 Autonomous 技术 的 联合 代理 /招股 说 明 书 
被 证 券 交 易 委 员 会 宣布 生效 。 

(3) Summit 科技 称 其 产品 使 用 量 达 到 第 一 季度 新 高 ， 并 确定 其 对 Autonomous 技术 公司 的 收购 。 

(4) 宣布 召开 年 度 股 东 大 会 。 

(5) Summit 科技 宣布 ， 已 向 证 券 交 易 委 员 会 提交 400 万 份 普通 股 的 注册 声明 。 

(6) 美国 食品 及 药物 管理 局 委员 会 为 Summit 科技 在 矫正 近视 (无 论 是 否 散 光 ) 的 LASIK 手术 中 使 用 的 激光 
背书 。 

(1) Summit ALA LAT IE, BSH 273 。 

(8) Summit 科技 今日 称 ， 截 至 19996 A308, 近 3 个 月 的 收益 涨幅 为 14%…… 

(9) Summit 科技 宣布 ， 以 每 股 16 美元 的 价格 ， 公 开发 售 350 万 份 普通 股 。 

(10) Summit 科技 宣布 与 Sterling Vision 公司 达成 协议 ，Sterling Vision 将 购买 多 达 6 Æ Summit 科技 前 沿 科技 

产品 Apex Plus 激光 系统 。 


(11) Preferred Capital Markets 公司 给 予 Summit 科技 有 限 公 司 “ 强 力 买 入 ”评级 ，12~16 个 月 目标 价格 为 
22.50 美元 。 


10.7.3 ”数据 处 理 


如 上 所 述 ， 我 们 有 两 个 数据 流 。 每 支 股票 都 有 当天 的 开盘 价 和 收盘 价 ， 分 别 记录 于 美国 东 
部 标准 时 间 当 天 上 午 9:30 和 下 午 4:00， 根 据 这 些 值 ， 可 以 轻而易举 地 计算 出 价格 变化 的 百 
分 比 。 此 处 有 一 个 小 小 的 难点 。 我 们 想 预 测 能 使 股价 发 生 巨变 的 新 闻 。 交 易 时 间 之 外 会 有 
许多 事件 发 生 ， 因 而 靠近 开盘 时 间 和 收盘 时 间 时 股价 波动 很 大 ， 因 此 我 们 不 记录 开 市 钟 敲 
响 时 (美国 东部 标准 时 间 上 午 9:30) 的 开盘 价 ， 而 记录 上 午 10:00 的 股价 ， 然 后 计算 其 与 
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下 午 4:00 的 股价 之 差 。 将 该 差 值 除 以 收盘 价 后 ， 就 得 到 了 当日 股价 变化 的 百分比 。 


新 闻 报道 更 需要 谨慎 对 待 。 我 们 事先 给 新 闻 报道 加 上 了 股票 的 标签 ， 这 些 标签 大 部 分 是 准 
确 的 〈 前 文 补充 栏 “ 杂 乱 的 新 闻 ” 详 细 探讨 了 这 种 文本 挖掘 的 困难 之 处 )。 几 乎 所 有 新 闻 
都 有 时 间 标 记 ( 没 有 的 已 被 删 掉 )， 因 此 我 们 可 以 将 它们 按 正 确 的 日 期 和 交易 窗口 排序 。 
因为 想 知道 新 闻 与 其 可 能 影响 的 股票 之 间 的 紧密 联系 ， 所 以 我 们 忽略 所 有 提 及 两 只 以 上 股 
票 的 新 闻 ， 这 样 就 删除 了 许多 单纯 的 总 结 和 新 闻 聚 合 。 


经 过 10.3.1 节 所 描述 的 基本 步 又， 我 们 把 新 闻 简 化 成 了 TFIDF 表示 形式 。 特 别 地 ， 每 个 
单词 都 经 过 大 小 写 标准 化 、 词 干 提取 ， 并 且 我 们 删除 了 停 用 词 。 最 后 ， 我 们 构造 了 一 个 
2-grams 模型 ， 使 得 新 闻 中 每 个 单独 的 词语 和 相 邻 的 两 个 单词 都 能 用 来 表示 新 闻 。 


准备 工作 完成 后 ， 我 们 给 每 篇 新 闻 打 上 相关 的 股票 价格 变化 的 标签 (变化 或 不 变 ) ， 如 
图 10-7 所 示 。 这 样 一 来 ， 就 得 到 了 约 16 000 篇 可 用 的 有 标签 新 闻 。 仅 供 参 考 ， 在 所 有 新 
闻 中 75% 标 为 不 变 ，13% RARA, 12% 标 为 暴跌 。 闫 升 和 暴跌 的 新 闻 合 并 ， 构 成 变化 
分 组 ， 因 此 25% 的 新 闻 会 导致 相关 股票 价格 发 生 巨 变 ， 而 75% 则 不 会 。 


10.7.4 结果 
在 深入 研究 该 结果 前 ， 先 说 一 点 题 外 话 。 


前 面 的 章节 (尤其 是 第 7 章 ) 强调 ， 为 了 设计 评估 框架 ,仔细 考虑 要 解决 的 商业 问题 极其 
重要 。 但 是 本 例 并 没有 经 过 如 此 仔细 的 考虑 。 如 果 任 务 的 目的 是 触发 股票 交易 ， 那 么 我 们 
可 以 提出 一 个 包括 国 值 、 时 间 限 制 和 交易 成 本 的 总 体 交 易 策 略 ， 并 据 此 进行 完整 的 成 本 收 
益 分 析 。 -但 现在 我 们 的 目的 是 推荐 新 闻 ( 即 回答 “哪些 新 闻 会 导致 股票 价格 发 生 巨 变 ”)， 
因为 该 问题 非常 开放 ， 所 以 我 们 不 会 确切 计算 用 于 决策 的 成 本 收益 。 因 此 ， 期 望 值 计算 和 
收益 图 像 并 不 适用 于 此 问题 。 


我 们 还 是 来 看 看 模型 的 预测 能 力 ， 看 看 这 个 问题 能 被 解决 到 什么 程度 。 图 10-8 展示 了 三 个 
样本 分 类 器 (逻辑 回归 、 材 素 贝 叶 斯 和 分 类 树 ) 的 ROC 图 像 ， 以 及 一 条 随机 分 类 线 。 这 
些 曲线 根据 10 重 交 又 验证 的 结果 取 平 均 ， 其 正 类 为 变化 ， 负 类 为 不 变 。 许 多 问题 显 而 易 
见 。 首 先 ， 因 为 曲线 有 一 处 明显 的 远离 对 角 线 (随机 分 类 线 ) 的 “弯曲 ”， 且 ROC 曲线 
下 面积 (AUC) 全 都 远大 于 0.5， 所 以 新 闻 报 道 的 确 可 以 预测 股价 变动 ， 其 次 ， 逻 辑 回归 
和 朴素 贝 叶 斯 表现 相似 ， 而 分 类 树 模型 显然 差 一 些 ， 最 后 ， 这 些 曲 线 没 有 明显 的 优势 区 间 
(或 劣势 区 间 )。 曲 线 的 凹凸 部 分 有 时 能 暴露 出 问题 的 特征 ， 或 数据 表达 的 缺陷 ， 但 这 里 看 
不 出 来 。 

图 10-9 展示 了 这 三 种 分 类 器 对 应 的 提升 度 曲 线 ， 仍 根据 10 重 交叉 验证 的 结果 取 平 均 。 前 
文 提 到 ， 语 料 库 中 1/4 (25%) 的 新 闻 属 于 正 类 〈 即 能 给 股价 带 来 巨变 )。 每 条 曲线 表示 使 
用 该 模型 对 新 闻 进行 评分 和 排序 时 , 我 们 所 能 得 到 的 精度 的 提升 度 “。 比 如 , Œ x= 0.2 的 





































































































































































































TES: 一 些 研究 者 已 经 做 过 了 这 样 的 分 析 ， 通 过 模拟 股票 交易 和 计算 投资 回报 来 评估 他 们 的 系统 。 读 者 可 参 
考 例如 Schumaker & Chen (2010) 在 AZFinText 中 的 文章 。 

注 6: 回忆 第 7 章 ， 精 度 指 的 是 超过 分 类 阔 值 的 数据 项 确实 为 正 的 比例 ， 而 提升 度 指 的 是 上 述 情况 比 在 整个 
总 体 中 随机 寻找 的 精度 高 多 少 倍 。 
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AE, REINA ADS MGT EPA) 2.0, KERE, AURORA TTR TT > 
然后 选择 前 20% (x = 0.2) 的 新 闻 ， 那 么 在 其 中 寻找 正 向 新 闻 的 精度 会 是 在 全 部 新 闻 中 寻 
找 的 2 信 (提升 度 为 2)。 因 而 ， 在 根据 模型 排序 的 前 20% 的 新 闻 中 ， 有 一 半 能 给 股价 带 
来 巨变 。 
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图 10-8: 股票 新 闻 分 类 问题 的 ROC 曲线 
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图 10-9: 股票 新 闻 预 测 问题 的 提升 度 曲 线 
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在 下 结论 前 ， 再 看 看 这 个 问题 中 的 一 些 重要 词语 。 虽 然 本 例 的 目的 并 不 是 根据 数据 构建 易 
里 解 的 规则 ， 但 是 Macskassy 等 人 在 2001 年 就 在 同一 个 语料库 上 做 了 这 样 的 工作 。 以 下 是 
从 他 们 的 结论 中 找 出 的 信息 增益 "高 的 词语 , 每 条 词语 可 能 是 单词 , 也 可 能 是 删除 后 级 ( 体 
现在 括号 中 ) 后 的 词 干 : 
alert(s,ed), architecture, auction(s,ed,ing,eers), average(s,d), award(s,ed), 
bond(s), brokerage, climb(ed,s,ing), close(d,s), comment(ator,ed,ing,s), 
commerce(s), corporate, crack(s,ed,ing), cumulative, deal(s), dealing(s), 
deflect(ed,ing), delays, depart(s,ed), department(s), design(ers,ing), economy, 
econtent, edesign, eoperate, esource, event(s), exchange(s), extens(ion,ive), 
facilit(y,ies), gain(ed,s,ing), higher, hit(s), imbalance(s), index, 
issue(s,d), late(ly), law(s,ful), lead(s,ing), legal(ity,ly), lose, majority, 
merg(ing,ed,es), move(s,d), online, outperform(s,ance,ed), partner(s), payments, 
percent, pharmaceutical(s), price(d), primary, recover(ed,s), redirect(ed,ion), 
stakeholder(s), stock(s), violat(ing,ion,ors) 


其 中 有 些 词 暗示 关于 企业 或 其 股价 的 重大 好 消息 或 坏 消 息 ， 有 些 词 (econtent, edesign, 
eoperate) 同时 也 暗示 20 世纪 90 年 代 末 的 “互联 网 热潮 ”， 而 这 个 语料库 正 是 生成 于 那个 
e 前 级 流行 的 时 代 。 

虽然 本 例 是 本 书 中 最 复杂 的 示例 之 一 ， 但 其 中 挖掘 金融 新 闻 的 方法 仍 颇 为 简单 。 本 例 可 以 
通过 许多 方法 来 扩展 完善 。 词 袋 表 示 法 就 是 本 例 的 第 一 选择 ， 命 名 实体 识别 也 能 用 于 更 好 
地 提取 新 闻 中 包含 的 企业 名 和 人 名 。 更 好 的 是 ， 事 件 解 析 能 发 挥 重要 作用 ， 因 为 新 闻 报 道 
通常 报道 的 是 事件 ， 而 不 是 企业 的 静态 事实 。 因 为 单个 单词 不 能 明确 地 体现 事件 的 主体 和 
客体 ， 而 一 些 重要 的 修饰 语 ， 如 not、despite 和 expect， 也 不 一 定 与 它们 修饰 的 短语 邻近 ， 
所 以 词 袋 模型 在 此 问题 中 处 于 劣势 。 最 后 ， 在 计算 股价 变动 时 ， 我 们 仅 考 虑 了 当天 的 开盘 
价 和 收盘 价 ， 而 不 是 每 小 时 或 即时 ( 秒 级 ) 的 股价 变化 。 市 场 对 新 闻 的 响应 极 快 ， 如 果 想 
根据 信息 进行 交易 ， 就 需要 股票 价格 和 新 闻 报道 都 含有 详细 可 靠 的 时 间 标 记 。 
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关于 根据 金融 新 闻 预 测 股价 的 早期 作品 
过 去 15 年 ， 有 不 少 人 研究 过 将 金融 新 闻 报 道 与 市 场 活动 相关 联 的 问题 ， 黄 至 本 书 作 者 
也 有 一 些 相关 的 早期 作品 (Fawcett & Provost, 1999) 。 因 为 大 部 分 早期 作品 在 数据 挖 据 
之 外 的 领域 发 表 ， 所 以 数据 挖掘 社区 很 可 能 还 不 知道 这 个 问题 和 相关 作品 。 我 们 将 在 
此 提 及 几 篇 文章 ， 以 便 感 兴趣 的 读者 进一步 研究 。 
Mittermayer 和 Knolmayer 的 调查 (2006) 是 一 个 合适 的 开始 ， 虽 然 现在 看 来 有 些 过 
时 ， 但 它 仍 提供 了 到 当时 为 止 还 算 不 错 的 方法 综述 。 
大 多 数 研究 者 会 认为 该 问题 是 根据 新 闻 预 测 股票 市 场 ， 而 本 章 中 我 们 反 其 道 而 行 之 , 根 
据 新 闻 的 未 来 影响 来 推荐 新 闻 。 这 样 的 任务 被 Macskassy FA (2001) 称 为 信息 分 类 。 
早期 的 作品 关注 主流 媒体 中 金融 新 闻 的 影响 ， 而 后 期 的 作品 则 会 把 互联 网 中 其 他 来 源 
的 评论 观点 也 考虑 进去 ， 比 如 Twitter 更 新 、 博 客 帖 子 和 搜索 引擎 趋 执 等 。Mao 等 人 
(2011) 发 表 的 论文 就 对 这 些 额外 信息 源 的 影响 进行 了 仔细 的 分 析 和 上 比较 。 




















TE7: 可 回忆 第 3 章 内 容 。 
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Re, BRE PMMA HAE MEM, RNA TF Cohen, Diether 
和 Malloy % Legislating Stock Prices (2012)。 他 们 研究 了 政客 、 法 律 和 受 法 律 影响 的 
公司 之 间 的 关系 。 显 然 ， 三 者 存在 关联 且 互 相 影响 ,但 令 人 感到 意外 的 是 ， 这 样 的 关 
联 竟然 没有 被 华尔街 发 现 。 基 于 公开 数据 ， 研 究 人 员 发 现 了 一 种 “对 公司 股价 简单 的 、 
之 前 未 被 察觉 的 影响 ”， 并 将 其 发 表 了 出 来 ， 以 供 交易 盈利 。 这 让 我 们 不 由 想到 ， 还 有 
许多 潜藏 的 关系 等 待 我 们 去 发 现 。 











10.8 小结 


在 实际 问题 中 ， 我 们 获得 的 数据 有 时 不 是 用 简洁 的 特征 向 量 表 示 ， 无 法 直接 作为 大 多 数 数 
据 挖 扬 算 法 的 输入 。 因 此 ， 实 际 问题 通常 需要 经 过 一 些 数据 表示 工程 的 处 理 ， 才 能 够 实施 
数据 挖掘 。 一 般 来 说 ， 比 较 简 单 的 方法 是 把 数据 转化 成 符合 现 有 工具 要 求 的 形式 。 文 本 、 
图 像 、 音 频 、 视 频 和 空间 信息 形式 的 数据 通常 需要 特别 处 理 ， 有 时 其 至 需要 数据 科学 团队 
具有 一 定 的 专业 知识 。 


本 章 探 讨 了 一 种 需要 预 处 理 的 常见 数据 形式 : 文本 。 将 文本 转化 为 特征 向 量 的 一 种 常用 方 
法 是 ， 把 每 篇 文档 分 解 为 单词 〈 即 “ 词 袋 ”表示 法 ) ， 然 后 用 TFIDF 公式 给 每 个 词语 赋值 。 
该 方法 相对 简单 、 成 本 低廉 且 用 途 广 泛 ， 而且 儿 平 不 需要 领域 知识 (至 少 一 开始 不 需要 )。 
该 方法 虽然 简单 ， 但 在 多 种 问题 中 的 表现 却 惊 人 地 好 。 在 第 14 章 ， 我 们 将 在 一 个 完全 不 
同 的 非 文本 问题 中 回顾 这 些 概念 。 
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决策 分 析 思 维 (=): 
面向 分 析 工 程 


基本 概念 : 用 数据 科学 解决 商业 问题 ， 首 先 要 进行 分 析 工 程 ， 即 根据 现 有 的 数 

据 、 工 具 和 技术 ， 设 计 分 析 解 决 方案 

示例 方法 : 将 期 望 值 作为 数据 科学 解决 方案 设计 框架 
数据 科学 的 本 质 是 根据 原则 性 技术 ， 提 取 数 据 中 的 信息 或 知识 。 但 是 正如 本 书 一 直 探 讨 
的 ， 我 们 很 难 把 技术 与 重要 的 商业 问题 完全 匹配 ， 也 很 难得 到 能 直接 应 用 于 技术 的 数据 。 
讽刺 的 是 ， 商 业 人 士 通 常 比 数据 科学 新 手 更 容易 接受 这 个 事实 (这 对 前 者 来 说 往往 是 显 而 
易 见 的 ) 因为 在 统计 学 、 机 器 学 习 和 数据 挖掘 等 领域 的 教学 过 程 中 ， 学 生 们 面 对 的 问题 通 
常 都 可 以 用 他 们 所 学 的 工具 直接 解决 。 
但 现实 问题 往往 要 复杂 得 多 。 商 业 问 题 很 少 是 单纯 的 分 类 问题 、 回 归 问 题 或 聚 类 问题 ， 
它们 就 是 商业 问题 。 回 顾 数 据 挖 气 流程 第 一 个 环节 中 
业务 理解 环节 和 数据 理解 环节 。 在 这 些 环 节 中 ， 我 们 必须 设计 或 策划 出 商业 问题 的 解决 





方案 。 与 广义 工程 中 一 档 


的 工具 。 









































的 小 循环 。 这 里 我 们 主要 关注 的 是 


FE， 数据 科学 团队 除了 要 理解 商业 需求 ， 还 需要 理解 用 来 解决 问题 





本 章 将 用 两 个 案例 来 说 明 这 种 分 析 工 程 。 在 这 两 个 案例 中 ， 我 们 将 看 到 本 书 中 反复 出 现 的 
基本 原则 和 一 些 已 经 介绍 过 的 具体 技术 。 贯 穿 这 些 案例 的 一 个 共同 主题 是 ， 期 望 值 框 架 
问题 ， 从 而 让 我 们 能 够 用 经 过 实践 检验 的 数 


(回忆 第 7 章 ) 如 





据 科学 技术 将 它们 一 一 击破 ， 随 后 ， 期 望 值 


方案 。 
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可 把 商业 问题 分 解 成 几 个 子 





ERES 





帮 有 我 们 把 结果 组 合成 原 问 题 的 解决 


11.1 为 慈善 机 构 寻 找 最 佳 捐赠 人 


我 们 有 一 个 应 用 数据 科学 原则 与 技术 的 经 典 商业 问题 : 目标 市 场 营销 。 它 是 一 个 非常 好 的 
教学 案例 ， 原 因 有 两 个 。 第 一 ， 许 多 行业 都 存在 类 似 目标 市 场 营销 的 问题 ， 比 如 传统 的 目 
标 (数据 库 ) 市 场 营 销 、 用 户 专用 优惠 券 的 发 放 、 在 线 精准 广告 等 ， 第 二 ， 目 标 市 场 营 销 
问题 的 基本 结构 也 出 现在 许多 其 他 问题 中 ， 比 如 先前 反复 讨论 的 用 户 流失 管理 问题 。 

在 本 次 案例 研究 中 ， 请 思考 一 个 目标 市 场 营销 的 真实 示例 :为 慈善 机 构 寻 找 邮 件 最 佳 发 送 
对 象 。 募 捐 组 织 (包括 大 学 中 的 ) 需要 权衡 预算 和 潜在 捐款 人 的 容忍 度 ， 在 每 次 募捐 活动 
中 ， 他 们 都 会 向 一 群 “慷慨 的 ”捐款 人 莫 捐 。 这 种 募捐 活动 可 能 所 针对 的 捐款 人 数量 较 
多 ,但 是 成 本 较 低 ， 不 太 频 繁 ， 也 可 能 所 针对 的 捐款 人 数量 较 少 ， 但 针对 性 更 强 ， 激 励 方 
案 的 成 本 更 高 。 


11.1.1 ”期望值 框 架 : 分 解 商业 问题 ， 重 组 解决 方案 

我 们 通常 需要 为 问题 “策划 ”一 个 分 析 方 案 ， 而 基本 概念 给 我 们 提供 了 分 析 框 架 。 为 了 建 
立 数据 分 析 式 的 思维 方式 ， 我 们 首先 要 通过 数据 挖掘 (第 2 章 ) 流程 来 建立 全 面 的 分 析 架 
构 : 从 业务 理解 环节 和 数据 理解 环节 开始 。 有 具体 来 说 ， 关 注 点 应 该 始终 停留 在 基本 原则 之 
一 : 我 们 究竟 想 解 决 什么 商业 问题 ( 见 第 7 章 ) ? 

让 我 们 来 把 问题 具体 化 。 数 据 挖 掘 工程 师 可 能 会 立马 想到 : 要 根据 每 个 潜在 用 户 (本 例 中 
也 就 是 潜在 捐款 人 ) 是 否 会 对 优惠 做 出 响应 进行 建 模 。 但 是 仔细 考虑 过 这 个 问题 后 ， 你 会 
发 现 ， 本 例 中 的 响应 情况 分 为 很 多 种 : 有 的 人 可 能 会 捐 100 美元 ， 而 有 的 人 可 能 只 捐 1 美 
元 。 我 们 必须 把 这 些 情况 都 考虑 进来 。 

我 们 是 否 希 望 捐款 总 额 最 大 化 ? (这 里 的 捐款 总 额 既 可 以 指 一 次 捐款 活动 中 的 捐款 金额 ， 
也 可 以 指 捐款 人 一 生 之 中 所 有 捐款 的 金额 ， 为 了 简化 问题 ， 本 章 选 择 前 一 种 情况 。) 如 果 
实现 目标 的 手段 是 针对 许多 人 ， 每 个 人 仅 捐 1 美元 ， 而 成 本 正好 也 是 每 人 1 美元 呢 ? 这 样 
我 们 将 几乎 筹集 不 到 钱 。 因 此 ， 我 们 需要 重新 思考 这 个 问题 。 


关注 需要 解决 的 商业 问题 本 身 有 助 于 迅速 得 到 答案 ， 因 为 对 于 精通 商业 的 人 来 说 ， 这 是 显 
而 易 见 的 : 我 们 需要 将 捐款 利润 ， 也 就 是 考虑 成 本 后 的 净利 润 最 大 化 。 不 过 ， 即 便 擎 握 了 
估计 响应 概率 的 方法 〈 这 很 明显 是 对 二 元 结果 的 类 概率 估计 的 应 用 ) ， 我 们 依然 不 知道 如 
何 估计 收益 。 


这 里 再 次 强调 ， 那 些 基 本 概念 有 助 于 组 织 思维 并 策划 数据 分 析 解 决 方案 。 在 应 用 另 一 条 基 
本 概念 后 ， 就 能 用 期 望 值 的 框架 来 组 织 数 据 了 。 我 们 可 以 把 第 7 章 介绍 的 概念 应 用 到 问题 
定义 中 ， 把 期 望 值 作为 策划 问题 解决 方案 的 框架 。 请 回忆 目标 用 户 x 的 期 望 收益 〈 或 成 
AL) AK: 





















































































































































目标 用 户 的 期 望 收益 =p(R|X) > vr + [1 — p(R |x) ] Vyr 
其 中 ，p(R | x) 是 用 户 x 的 响应 概率 ，v 是 响应 的 值 ， 而 Vive 是 未 响应 的 值 。 因 为 每 个 人 要 么 
响应 、 要 么 不 响应 ， 所 以 不 响应 的 概率 估计 值 是 1—p(R | x)。 正 如 第 7 章 所 讨论 的 ， 本 书 中 
许多 技术 可 以 通过 挖掘 历史 数据 来 模拟 概率 。 
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然而 ， 期 望 值 框架 让 我 们 知道 ， 商 业 问 题 和 目前 我 们 考虑 过 的 问题 有 些 不 同 。 本 例 中 捐款 
人 给 出 的 值 各 不 相同 ， 在 把 某 捐 款 人 作为 目标 之 前 ， 谁 也 不 知道 目标 捐款 人 的 捐款 额 会 是 
多 少 ! 为 了 明确 这 一 点 ， 我 们 来 修改 一 下 公式 : 
目标 捐款 人 的 期 望 收益 =PR129 vee) +H 1 一 p(R |x) ] Vv) 
其 中 wo 是 捐款 人 x 响应 时 得 到 的 值 ， 而 waco 是 用 户 x 未 响应 时 得 到 的 值 。 响 应 值 
va(x) 是 收 到 的 捐款 减 去 募捐 成 本 ， 而 未 响应 的 值 va) 就 是 0 减 去 募捐 成 本 。 为 了 考虑 得 
更 全 面 ， 我 们 还 需要 估计 不 把 捐款 人 作为 目标 的 收益 ， 然 后 通过 比较 两 者 来 决定 是 否 将 其 
作为 目标 。 非 目标 用 户 的 期 望 收益 很 简单 ， 就 是 0 一 一 在 本 例 中 ， 我 们 认为 捐款 人 不 会 不 
经 请 求 就 自发 地 捐款 。 虽 然 事 实 上 并 非 总 是 如 此 ， 但 在 这 里 姑且 这 样 假设 。 
为 什么 期 望 值 框架 会 对 我 们 有 帮助 呢 ? 因为 有 了 这 个 框架 就 能 通过 数据 估计 出 vx(x) 和 /或 
Vue) 了 。 甚 实 通过 回归 建 模 也 能 佑 计 这 些 值 。 根 据 目 标 捐款 人 的 历史 数据 ， 可 以 用 回归 
建 模 来 估计 捐款 人 的 响应 值 。 不 过 ， 期 望 值 框 架 还 能 给 我 们 一 个 更 确切 的 方向 :va(x) 是 所 
预测 的 捐款 人 会 响应 时 的 值 ， 它 可 以 通过 只 有 响应 用 户 的 数据 集训 练 出 的 模型 来 预测 。 事 
实证 明 ， 这 比 普遍 地 估计 目标 捐款 人 的 响应 值 有 效 多 了 ， 因 为 绝 大 多 数 的 捐款 人 根本 不 会 
响应 。 而 回归 建 模 则 需要 区 分 未 响应 情况 下 的 0 值 和 捐款 额 较 小 导致 的 极 小 值 。 


再 回顾 一 下 前 面 的 内 容 。 期 望 值 框架 有 助 于 分 解 商业 问题 的 原因 正如 第 7 章 所 描述 ， 期 望 
值 是 每 种 情况 的 概率 和 它 对 应 值 的 乘积 的 总 和 ， 而 数据 科学 提供 的 方法 正好 能 让 我 们 估计 
概率 和 其 对 应 值 。 需 要 明确 的 是 ， 尽 管 我 们 可 能 不 需要 估计 其 中 一 些 量 (如 vax), AGI 
中 假设 它 永远 为 0) ， 然 而 准确 估计 它们 确实 是 一 件 很 重要 的 事情 。 期 望 值 框架 可 以 有 助 于 
把 很 复杂 的 商业 问题 分 解 成 一 个 个 子 问题 ， 以 便于 寻找 解决 方案 。 最 后 它 还 能 告诉 我 们 如 
何 将 这 些 子 问题 组 合 到 一 起 。 在 该 示例 (选用 它 是 因为 推导 简单 ) 中 ， 直 观 答案 非常 令 人 
满意 ， 给 那些 期 望 捐款 额 高 于 信息 成 本 的 捐款 人 发 信息 ! 数学 上 ， 我 们 只 需要 寻找 那些 其 
望 收益 大 于 0 的 捐款 人 ， 这 在 代数 上 简化 不 等 式 即 可 。 设 wo 为 用 户 x 响应 时 的 期 望 捐 
款额 ，c 为 发 信息 的 成 本 ， 那 么 : 
目标 捐款 人 的 期 望 收 益 = pCR | x) wo +E 1 — pCR |x) ] > Val) 

我 们 希望 收益 大 于 O, Mi: 


P(R |x) -(dp(x) —¢) +[1— p(R|x)]-(-e) > 0 
P(R|x)- dp (x) — p(R|x)-c—c+ p(R|x)-c>0 
PRIX: dex) > ¢ 


也 就 是 说 ， 期 望 捐款 额 ( 左 侧 ) 应 大 于 募捐 成 本 (AM). 
11.1.2 ”简短 的 题 外 话 : 选择 性 偏差 


这 个 例子 引出 了 数据 科学 的 另 一 个 重要 问题 ， 虽 然 其 处 理 方法 已 经 超过 了 本 书 的 范围 ， 
但 此 处 还 是 有 必要 作 简 短 的 讨论 。 请 注意 ， 在 捐款 预测 的 建 模 过 程 中 ， 数 据 可 能 是 有 偏 
的 一 一 也 就 是 说 ， 样 本 并 不 是 从 所 有 捐款 人 中 随机 抽取 的 。 为 什么 呢 ? 因为 这 些 数据 来 自 
于 以 前 的 捐款 活动 ， 即 来 自 于 以 前 的 确 响应 过 的 捐款 人 。 这 与 根据 信贷 用 户 的 历史 数据 模 
拟 资 信 水 平 的 思路 很 相似 : 他 们 是 你 过 去 认为 信用 良好 的 那些 用 户 ! 但 是 ， 你 想 用 模型 找 
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到 的 是 整个 总 体 中 将 来 最 有 希望 捐款 的 人 ， 那 么 过 去 碰巧 被 选中 的 那些 人 为 什么 就 是 整个 
总 体 中 的 好 样本 呢 ? 这 就 是 一 种 选择 性 偏差 ， 数 据 不 是 从 需要 实际 应 用 模型 的 总 体 中 随机 
选择 的 ， 相 反 它 在 某 种 程度 上 是 有 偏 的 〈 比 如 有 人 只 是 偶然 去 捐款 ， 比 如 根据 过 去 的 方法 
选择 目标 用 户 ， 再 比如 有 人 只 是 过 去 被 授信 ) 。 
数据 科学 家 面临 的 一 个 重要 问题 是 : 使 数据 产生 偏差 的 选择 过 程 是 否 会 影响 目标 变量 的 
值 ? 在 信用 风险 建 模 中 ， 答 案 毫 无 疑问 是 肯定 的 ， 因 为 老 顾客 正 是 因为 信用 良好 被 挑选 了 
出 来 。 虽 然 捐款 的 例子 可 能 不 会 那么 直观 ， 但 是 我 们 推出 ， 捐 款额 较 大 的 捐款 人 捐款 频率 
通常 并 不 高 。 比 如 ， 有 人 可 能 在 每 次 收 到 捐款 请 求 时 捐 出 10 美元 ， 而 另 一 些 人 则 会 一 次 
性 捐 出 100 美元 ， 然 后 不 管 之 后 再 看 到 多 少 次 这 样 的 捐款 活动 ， 都 觉得 自己 一 段 时 间 内 不 
用 再 捐 了 。 于 是 结果 就 会 产生 偏差 : 某 些 过 去 恰巧 参加 了 一 些 捐款 活动 的 人 可 能 更 偏向 于 
捐 得 少 的 人 。 

不 过 幸运 的 是 ， 有 的 数据 科学 技术 能 够 帮助 建 模 者 处 理 这 样 的 选择 性 偏差 。 但 这 些 技术 
同样 也 超出 了 本 书 范围 ， 感 兴趣 的 读者 不 妨 从 Zadrozny 的 作品 (Zadrozny & Elkan, 2001; 
Zadrozny, 2004) 读 起 ， 了 解 在 这 个 募捐 案例 中 处 理 选 择 性 偏差 的 方法 。 


11.2 更 复杂 的 用 户 流失 示例 回顾 


接 下 来 让 我 们 在 用 户 流失 示例 中 应 用 所 学 的 知识 ， 从 数据 分 析 的 角度 进行 研究 。 在 先前 的 
尝试 中 ， 我 们 并 没有 竭尽 全 力 全 面 地 处 理 这 个 问题 。 当 然 ， 这 是 故意 这 样 设计 的 ， 因 为 当 
时 我 们 还 设 有 学 完 所 有 要 用 的 知识 ， 而 且 那 些 不 全 面 的 尝试 足以 说 明 问题 。 但 是 现在 我 们 
可 以 利用 刚才 募捐 问题 涉及 的 基本 数据 科学 的 概念 ， 更 加 详细 地 研究 这 个 问题 。 


11.2.1 期 望 值 框架 : 构建 更 复杂 的 商业 问题 

首先 ， 我 们 要 解决 的 商业 问题 究竟 是 什么 ?保持 示例 问题 的 基本 设 定 : 我 们 的 电信 公司 用 
户 流失 严重 ， 市 场 部 为 此 策划 了 特别 的 优惠 来 留 住 用 户 ， 而 我 们 的 任务 就 是 把 优惠 活动 有 
针对 性 地 提供 给 合适 的 用 户 。 

最 初 ， 我 们 决定 要 用 数据 找到 最 有 可 能 在 合约 到 期 后 ( 短 时 间 内 ) 离开 公司 的 用 户 。 进 一 
步 地 ， 我 们 要 关注 一 下 哪些 用 户 的 合约 即将 到 期 ， 因 为 大 多 数 流 失 就 发 生 于 这 段 时 间 。 不 
过 ， 我 们 真 的 想 要 把 优惠 提供 给 那些 最 有 可 能 离开 公司 的 用 户 吗 ? 

这 就 需要 回 到 基本 概念 上 来 : 我 们 要 解决 的 商业 问题 究竟 是 什么 ?为 什么 用 户 流失 是 个 问 
题 ? 因为 公司 会 因此 赔钱 ， 所 以 真正 的 商业 问题 是 赔钱 。 如 果 公 司 在 一 个 用 户 身上 赔 得 比 
挣 得 多 ， 那 么 就 算 他 流失 了 也 无 所 谓 。 我 们 想 要 做 的 是 限制 损失 的 金额 ， 而 不 是 简单 地 留 
住 大 部 分 用 户 。 因 此 ， 像 捐款 问题 一 样 ， 我 们 要 把 用 户 的 价值 也 考虑 进来 。 此 时 期 望 值 框 
架 就 能 帮助 设计 这 样 的 分 析 ， 其 过 程 与 上 面 类 似 。 在 流失 案例 中 ， 每 个 人 的 值 更 容易 估 
计 。 因 为 这 是 本 公司 自己 的 用 户 ， 而 公司 有 他 们 的 账单 记录 ， 所 以 通过 对 以 前 的 值 应 用 外 
推 法 ， 就 可 以 非常 准确 地 预测 他 们 的 未 来 收益 值 (取决 于 这 些 用 户 是 否 留存 )。 但 是 在 这 
个 案例 中 ， 我 们 还 没 能 完全 解决 问题 ， 通 过 对 期 望 值 的 设计 分 析 我 们 会 知道 原因 。 

我 们 将 用 期 望 值 框 架 来 深入 探究 数据 挖 扬 流 程 中 业务 理解 和 数据 理解 这 两 个 环节 。 我 们 是 
否 可 以 把 这 个 案例 和 捐款 案例 做 同样 的 处 理 ? 像 捐款 案例 中 一 样 ， 我 们 可 以 把 给 目标 用 户 

















































































































































































































决策 分 析 思 维 (二 ) : 面向 分 析 工程 | 215 


特殊 优惠 的 期 望 收益 表示 成 如 下 形式 : 

目标 用 户 的 期 望 收益 =p(S | vs (x) + [1 一 p(S | x)] vys (Xx) 
其 中 ，p(S | x) 是 用 户 x 在 作为 目标 用 户 留 在 : 公司 的 概率 ，w Co 是 用 户 x 留 在 公司 时 我 们 
得 到 的 值 ， 而 vws (x) 则 是 用 户 x 不 留 在 公司 (离开 或 流失 ) 时 我 们 得 到 的 值 。 
我 们 是 否 能 用 这 个 公式 来 选择 提供 特殊 优惠 的 目标 用 户 呢 ? 其 他 条 件 不 变 的 情况 下 ， 选 择 
值 最 高 的 用 户 似乎 就 是 选择 最 有 可 能 留 下 的 用 户 ， 而 不 是 最 有 可 能 离开 的 用 户 ! 为 了 讲 得 
更 明白 ， 让 我 们 来 简化 一 下 这 个 例子 ， 假 设 用 户 流失 的 值 为 0， 那 么 期 望 值 公式 就 变 成 了 ; 

目标 用 户 的 期 望 收益 =p(S | x) - vs(x) 

这 与 我 们 想 把 最 有 可 能 离开 的 用 户 作为 目标 的 初 囊 不 一 致 。 可 是 问题 究竟 出 在 了 哪里 呢 ? 
期 望 值 框 架 告 诉 我 们 : 我 们 还 需要 更 谨慎 。 我 们 不 想 草 草 应 用 之 前 在 捐款 问题 中 的 做 法 ， 
而 想 仔细 考虑 一 下 现在 这 个 问题 。 我 们 并 不 想 把 将 会 留存 的 高 价值 用 户 作 为 目标 ， 而 是 想 
把 流失 后 造成 的 损失 最 多 的 用 户 作为 目标 。 这 是 个 复杂 的 问题 ， 而 期 望 值 框架 不 仅 有 助 于 
系统 思考 ， 还 会 启发 我 们 解决 问题 。 在 捐赠 问题 中 ， 我 们 曾 说 :“ 为 了 考虑 得 更 全 面 ， 我 
们 还 需要 估计 不 把 捐款 人 作为 目标 的 收益 ， 然 后 通过 比较 两 者 来 决定 是 否 将 其 作为 目标 。” 
当时 我 们 之 所 以 允许 自己 忽略 这 一 点 ， 是 因为 我 们 假设 捐款 人 不 会 在 没有 受到 募捐 请 求 的 
情况 下 自发 捐款 。 但 是 ， 在 业务 理解 环节 ， 我 们 必须 考虑 到 商业 问题 的 每 个 细节 。 
考虑 一 下 用 户 流失 问题 中 “不 作为 目标 ”的 情况 : 如 果 不 将 用 户 作为 目标 ， 其 值 是 否 为 0? 
这 可 不 一 定 。 如 果 用 户 不 被 选 为 目标 却 还 是 会 留 下 ， 那 么 其 实 我 们 能 取得 更 高 的 值 ， 因 为 
我 们 没有 在 激励 上 花费 成 本 | 


11.2.2 ”评估 激励 的 影响 
让 我 们 继续 深入 研究 。 首 先 ， 分 别 计算 将 用 户 选 为 优惠 激励 目标 的 收益 和 不 将 用 户 选 为 目 
标的 收益 ， 并 详细 定义 一 下 激励 成 本 。 假 设 必 (9 是 用 户 x 留 下 的 收益 ， 不 包含 激励 成 本 ; 
Uys (X) 是 用 户 x 离开 的 收益 ， 同 样 不 包含 激励 成 本 。 为 进一步 简化 问题 ， 假 设 无 论 用 户 留 
下 还 是 离开 ， 我 们 都 需要 承担 激励 成 本 c。 
对 流失 问题 来 说 这 并 不 完全 真实 ， 因 为 激励 通常 根据 用 户 是 否 流 失 包 含 了 不 
同 的 成 本 构成 ， 比 如 一 部 新 手机 。 对 这 个 小 问题 展开 分 析 也 是 非常 简单 的 ， 
我 们 也 可 以 得 到 相同 的 定性 结论 。 你 不 妨 一 试 。 










































































那么 ， 我 们 来 分 别 计算 把 用 户 作为 目标 和 不 把 其 作为 目标 的 期 望 收益 值 。 在 此 需要 说 明 ， 
用 户 留 下 和 离开 的 概率 估计 根据 其 是 否 被 选 为 目标 (但 愿 会 ) 而 存在 差异 (希望 激励 会 起 
作用 )。 我 们 在 两 种 情况 下 ( 选 为 目标 ，7， 或 不 选 为 目标 ，not7) 分 别 表示 留 下 的 概率 。 
选 为 目标 的 期 望 收益 是 : 

EB, (x) = p(S|x, T): (use) — ¢) + [1~ p(S |x, T)]: (uns) -oO) 
不 选 为 目标 的 期 望 收益 值 是 : 











注 1: Stay， 取 首 字 母 。 一 一 译 者 注 
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EB „or (X) = P(S | x, notT )- ux) + [1 — p(S |x, notT ) ]- uys œŒ) 


现在 ， 为 了 完善 商业 问题 的 定义 ， 我 们 要 把 那些 选 为 目标 后 会 带 来 最 大 收益 的 用 户 ， 也 就 
是 那些 EBX) - EBX) 最 大 的 用 户 选 为 目标 。 这 其 实 是 一 个 比 以 前 更 复杂 的 问题 一 一 但 
期 望 值 框架 能 帮 有 我 们 组 织 思 路 ， 有 助 于 我 们 系统 地 思考 并 精确 的 针对 目标 进行 分 析 。 
同时 ， 期 望 值 框架 还 能 让 我 们 看 到 现在 这 个 问题 与 之 前 研究 过 的 问题 在 结构 上 的 区 别 。 尤 
其 是 ， 我 们 要 考虑 不 把 用 户 选 为 目标 的 后 果 (分 析 EB, 和 EB,,r)， 以 及 激励 的 实际 影响 
(BU EB, F0 EB pr WIZ). ? 

我 们 再 简短 地 用 一 些 有 关 数 学 的 题 外 话 来 说 明 这 个 问题 。 试 想 “ 选 作 目 标的 值 ”VT= EBP- 
EB oA 达到 最 大 的 情况 。 在 如 果 用 户 不 留 下 ， 公 司 就 将 一 无 所 获 的 假设 下 ， 我 们 来 展开 
并 简化 VT ASK, 

公式 11-1: VT 分 解 

















VT = p(S|x,T):us(x)— p(S|x,notT)-u(x)-c¢ 
=[p(S|x,T)— p(S|x,notT)]-us(x) -c 
=A(p)-u(x)—¢ 


其 中 4(p) 是 将 用 户 选 为 目标 和 不 将 其 选 为 目标 时 ， 用 户 留 在 公司 的 概率 预测 值 之 差 。 我 们 
再 一 次 看 到 了 直观 的 结果 : 根据 反映 用 户 是 否 将 要 留存 的 期 望 值 ， 我 们 希望 将 那些 留存 概 
率 变化 最 大 的 用 户 作为 目标 用 户 ! 换 名 话说， 就 是 把 选 为 目标 后 期 望 值 变化 最 大 的 用 户 作 
HEAR Ce 对 本 示例 背景 下 的 每 个 用 户 而 言 都 相同 ， 公 式 包含 这 个 量 仅仅 是 为 了 确保 VT 
不 会 成 为 经 济 损失 。) 

千 万 不 要 忘记 ， 这 些 工 作 都 属于 业务 理解 环节 。 接 下 来 看 看 它 对 数据 挖掘 流程 中 其 他 部 分 
的 影响 。 


11.2.3 ”从 期 望 值 分 解 到 数据 科学 解决 方案 

前 面 的 讨论 ， 尤 其 是 公式 11-1 强调 的 分 解 ， 在 数据 理解 、 数 据 定 义 、 建 模 和 评估 等 方面 
为 我 们 提供 了 指导 。 特 别 是 通过 分 解 ， 我 们 可 以 明确 要 构建 的 模型 ， 即 用 来 估计 pS | x, T) 
和 p(S|x, notT) 的 模型 。 两 者 分 别 为 用 户 在 被 选 为 目标 的 情况 下 和 不 被 选 为 目标 的 情况 下 
留 在 公司 的 概率 。 与 先前 的 数据 挖掘 解决 方案 不 同 ， 在 这 里 我 们 要 构造 两 个 独立 的 概率 估 
计 模 型 。 一 旦 这 些 模型 建立 ， 我 们 便 可 以 用 它们 计算 目标 用 户 的 期 望 值 。 
重要 的 是 ， 期 望 值 的 分 解 能 使 我 们 在 数据 理解 环节 的 努力 更 集中 。 我 们 需要 什么 数据 来 构 
建 这 些 模 型 ? 在 两 种 情况 下 ， 我 们 都 需要 合约 已 到 期 的 用 户 样 本 。 实 际 上 ， 我 们 需要 的 是 
合约 到 期 已 经 很 长 时 间 ， 是 走 还 是 留 已 经 非常 确定 的 用 户 样本 。 第 一 个 模型 需要 的 是 被 选 
为 特殊 优惠 目标 的 用 户 样 本 ， 而 第 二 个 模型 则 需要 未 被 选 为 目标 的 用 户 样本 。 这 些 样本 可 
能 可 以 代表 模型 要 应 用 的 用 户 群 ( 详 见 上 文 对 选择 性 偏差 的 讨论 )。 为 了 深入 理解 数据 理 
















































































































































































注 2: 这 也 是 因果 分 析 的 一 个 基本 出 发 点 : 构建 一 个 所 谓 的 反 事 实情 景 ， 以 评估 两 种 相同 场景 下 期 望 值 的 差 
。 类 比 医疗 诊断 中 需要 评估 治疗 的 因果 影响 时 的 情况 ， 这 些 场景 通常 被 称 作 “ 治 疗 ”情况 和 “未 治 
”情况 。 因 果 分 析 的 不 同 框架 ， 从 随机 试验 到 回归 因果 分 析 ， 再 到 更 现代 的 因果 建 模 方法 ， 本 质 上 
存在 这 种 期 望 值 的 差 值 。 第 12 章 将 更 深入 地 讨论 因果 数据 分 析 。 
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APRA, TH ERAS — PAAA o 

如 何 获得 未 被 选 为 特殊 优惠 目标 的 用 户 的 样本 呢 ? 首先 ， 我 们 需要 确定 业务 环境 没有 发 生 本 
质变 化 ， 否 则 会 影响 用 历史 数据 预测 用 户 流失 的 有 效 性 〈 比 如 iPhone 对 AT&T 用 户 的 独家 
发 售 ， 就 会 对 其 他 通信 公司 造成 这 样 的 情况 )。 假 设 不 存在 这 样 的 变化 ， 那 么 收集 所 需 数据 
就 会 相对 简单 :电信 公司 会 保留 大 量 用 户 数 据 长 达 儿 个 月 ， 用 于 开具 账单 、 欺 诈 检 测 和 其 他 
一 些 目的 。 既 然 这 是 一 种 新 的 优惠 ， 那 么 也 就 没有 用 户 曾 被 选 为 该 优惠 活动 的 目标 。 我 们 还 
需要 仔细 检查 ， 以 确认 这 些 用 户 没有 接受 其 他 优惠 活动 ， 从 而 保证 用 户 流失 概率 不 受 影 响 。 


模拟 p(S|x, T) 的 情况 则 大 相 径 庭 ， 而 且 再 一 次 强调 了 期 望 值 框架 有 助 于 尽早 理 清 思路 ， 突 
出 当前 面 对 的 问题 和 挑战 。 其 中 的 困难 是 什么 呢 ? 困难 是 ， 因 为 优惠 是 全 新 的 ， 没 人 享受 
过 ， 所 以 我 们 找 不 到 相关 数据 来 构建 模型 ,也 就 无 法 估计 p(S|x, T) ! 


然而 ， 因 为 一 些 业 务 上 的 紧急 事件 ， 我 们 急需 减少 用 户 流 失 ， 所 以 我 们 还 是 要 硬 着 头皮 往 
下 进行 。 市 场 部 对 这 次 特殊 优惠 胸有成竹 ， 而 我 们 当然 也 有 一 些 数据 可 以 告诉 我 们 该 如 何 
往 下 进行 。 这 种 情景 在 解决 实际 业务 问题 的 数据 挖掘 应 用 中 并 不 少见 。 期 望 值 的 分 解 可 以 
帮助 我 们 得 到 一 个 复杂 的 公式 ， 它 有 助 于 更 好 地 理解 问题 。 但 是 我 们 可 能 不 愿意 或 没有 能 
力 处 理 这 样 复杂 的 公式 ， 这 可 能 是 因为 手头 没有 资源 (数据 、 人 力 或 计算 能 力 )。 在 用 户 
流失 示例 中 ， 所 缺少 的 是 必要 的 数据 。 

还 有 一 种 情景 是 ， 我 们 不 相信 公式 中 后 来 添加 的 复杂 项 能 大 幅 提 升 效率 。 比 如 ， 我 们 可 能 
会 做 出 这 样 的 推断 :“ 是 ， 公 式 11-1 让 我 知道 了 该 怎么 做 ， 但 我 觉得 用 更 简单 、 成 本 更 低 
的 公式 也 能 做 到 这 点 。” 举 个 例子 : 如 果 假 设 用 户 一 旦 被 提供 优惠 就 一 定 会 留 在 公司 (BI 
p(S|x, 7) = 1)， 会 怎么 样 呢 ? 虽然 这 个 假设 显然 过 度 简 化 了 问题 ， 但 是 并 不 影响 我 们 采取 
措施 一 一 而 且 在 实际 业务 中 ， 我 们 必须 准备 好 在 没有 理想 信息 的 情况 下 采取 措施 。 你 可 
以 用 公式 11-1 证 明 ， 应 用 这 种 假设 的 结果 不 过 是 把 1 - p(S|x, notT) : us(x) 取 最 大 值 的 用 户 
(也 就 是 如 果 其 离开 ， 公 司 将 蒙受 最 大 期 望 损失 的 用 户 ) 选 为 目标 。 如 果 我 们 没有 关于 优 
惠 活 动 所 产生 的 不 同 实际 影响 的 数据 ， 那 么 这 样 做 也 很 有 道理 。 

在 建 模 目标 数据 不 足 的 情况 下 ， 还 有 另外 一 种 做 法 : 用 目标 标签 的 “替代 品 ” 来 标记 数 
据 。 比 如 ， 市 场 部 可 能 曾经 推出 过 一 种 相似 但 不 完全 相同 的 优惠 ， 如 果 向 用 户 推出 优惠 的 
情景 也 相似 〈 回 忆 上 文 讨论 的 选择 性 偏差 问题 ) ， 那 么 不 妨 用 替代 标签 来 建 模 。” 


期 望 值 分 解 还 强调 了 另 一 种 选择 。 为 PCS|x, T) 建 模 需 要 什么 ?需要 获取 数据 ， 特 别 是 获取 
目标 用 户 的 数据 。 因 此 我 们 需要 把 用 户 选 为 目标 ， 但 这 会 带 来 一 定 成 本 。 如 果 因 为 目标 选 
得 很 糟糕 ， 结 果 在 那些 响应 概率 低 的 用 户 身上 浪费 了 成 本 ， 怎 么 办 ? 这 种 情况 关系 到 数据 
科学 的 第 一 条 基本 原则 :数据 应 该 被 作为 一 项 资产 来 处 理 。 我 们 不 仅 要 考虑 如 何 利 用 已 有 
资产 ， 还 要 考虑 如 何 投资 资产 ， 以 得 到 高 额 回报 。 回 忆 1.7 节 中 Signet 银行 面临 的 情况 。 
因为 他 们 没有 关于 用 户 对 他 们 所 设计 的 多 种 新 优惠 的 不 同 响应 的 数据 ， 所 以 他 们 对 数据 进 
行 了 投资 ， 尽 管 由 于 广泛 推广 优惠 活动 而 承受 了 一 些 损失 ， 然 而 他 们 所 取得 的 数据 资产 却 
正 是 他 们 成 为 成 绩 辉 煌 的 Capital One 的 原因 。 我 们 面临 的 情况 可 能 不 涉及 那么 大 范围 ， 项 


















































































































































































































































注 3: 在 一 些 应 用 中 ， 替 代 标签 可 能 来 自 与 实际 目标 标签 所 在 事件 完全 不 同 的 事件 。 比 如 ， 在 预测 看 到 有 和 针 
对 性 的 广告 之 后 ， 客 户 是 否 会 购买 产品 时 ， 实 际 上 有 关 购 买 量变 化 的 数据 非常 稀少 ， 而 把 广告 品牌 网 
站 访问 量 作为 购买 量 的 替代 变量 进行 建 模 就 信人 地 有 效 。 
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为 我 们 只 有 一 种 优惠 。 而 在 提供 优惠 时 损失 的 钱 数 ， 也 不 太 可 能 像 在 用 户 欠 款 时 ，Signet 
银行 损失 得 那么 多 。 但 无 论 如 何 ， 所 学 到 的 东西 是 一 样 的 : 如 果 愿 意 在 关于 人 们 如 何 响应 
优惠 的 数据 上 花 成 本 ， 我 们 就 能 更 好 地 针对 未 来 的 用 户 提供 优惠 。 








我 们 有 必要 重申 一 下 深入 了 解 业务 的 重要 性 。 根 据 优 惠 的 结构 来 看 ， 即 使 用 
户 不 接受 优惠 ， 我 们 可 能 也 不 会 损失 多 少 ， 因 此 更 简单 的 公式 可 能 就 足够 了 。 
































注意 ， 不 只 对 数据 资产 的 投资 需要 谨慎 进行 ， 应 用 本 书 中 提 及 的 概念 工具 也 是 如 此 。 回 忆 
第 8 章 中 用 学 习 曲 线 来 将 模型 性 能 可 视 化 的 概念 ， 学 习 曲 线 有 助 于 理解 数据 量 ， 即 本 例 中 
到 目前 为 止 对 数据 的 投资 额 ， 和 相应 的 泛 化 能 力 提升 的 关系 。 我 们 可 以 轻松 地 扩展 泛 化 能 
力 的 概念 ， 以 囊括 相对 于 基线 的 性 能 提升 〈 回 忆 基 本 概念 : 仔细 考虑 你 将 拿 什 么 作 比 较 )， 
其 中 基线 可 以 是 备 选 的 简单 用 户 流失 模型 。 因 此 ， 我 们 会 慢 慢 地 对 数据 进行 投资 ， 以 观察 
更 大 的 数据 量 是 否 会 带 来 更 好 的 性 能 ， 以 及 曲线 外 凸 是 否 代表 了 更 大 的 提升 空间 。 如 果 通 
过 分 析 发 现 投资 并 不 划算 ， 那 么 我 们 可 以 停止 投资 。 

重要 的 是 ， 这 并 不 意味 着 这 些 投资 就 白白 浪费 了 。 我 们 投资 的 目标 是 信息 ， 此 处 即 额外 的 
数据 是 否 能 帮助 我 们 有 效 并 且 合 算 地 减少 用 户 流失 的 信息 。 

此 外 ， 用 期 望 值 定义 问题 还 能 扩展 问题 的 定义 ， 从 而 提供 一 种 结构 化 的 方法 来 解决 以 下 问 
题 : 最 佳 优 惠 额 是 多 少 ? 我 们 可 以 拓展 定义 ， 使 之 包含 多 种 优惠 ， 并 判断 哪 种 优惠 能 使 用 
户 的 收益 达到 最 大 。 或 者 ， 我 们 也 可 以 把 优惠 设 为 参数 (比如 用 一 个 可 变 的 折扣 额 )， 然 
后 以 得 到 最 佳期 望 值 的 折扣 额 为 目的 进行 优化 。 当 然 ， 这 样 可 能 会 带 来 额外 的 数据 收集 成 
本 ， 因 为 这 需要 通过 实验 来 判断 不 同 用 户 在 不 同 优惠 水 平 下 去 留 的 概率 。 这 同样 与 Signet 
银行 变 成 Capital One 的 过 程 中 所 做 的 努力 类 似 。 


11.3 ”小结 


通过 关注 捐款 示例 和 用 户 流失 示例 ， 我 们 知道 了 期 望 值 框架 如 何 能 够 帮助 辨 明 真 正 的 商业 
问题 ， 也 了 解 了 数据 挖掘 在 该 问题 的 解决 方案 中 所 扮演 的 角色 。 

我 们 可 以 继续 详细 讨论 更 多 商业 问题 的 细节 ， 并 发 现 问 题 汶 在 的 复杂 性 (和 对 解决 方案 的 
更 高 要 求 )。 你 可 能 会 问 :“ 这 什么 时 候 是 个 头 ? 我 总 不 能 一 直 分 析 下 去 吧 ? ”原则 上 ， 你 
得 一 直 分 析 下 去 。 但 建 模 通常 需要 进行 一 些 简化 假设 ， 以 保证 问题 易于 处 理 。 在 分 析 工 程 
中 通常 有 下 面 几 点 可 供 参 考 : 

。 我 们 无 法 从 这 个 事件 中 获取 数据 ， 

。 在 这 方面 准确 建 模 的 成 本 大 高 ， 

。 该 事件 太 不 可 能 发 生 ， 可 直接 忽略 ， 

。 对 现在 这 种 情况 而 言 ， 这 个 公式 已 经 足够 了 ， 我 们 可 以 用 它 进行 下 一 步 了 。 

分 析 工 程 的 重点 不 在 于 找 出 可 以 处 理 所 有 的 偶然 情况 的 复杂 的 解决 方案 。 重 要 的 是 ， 要 深 
化 对 问题 的 数据 分 析 式 思考 ， 从 而 明确 数据 挖掘 的 作用 ， 考 虑 业务 约束 、 成 本 和 收益 ， 并 
有 意识 地 、 明 确 地 简化 假设 。 这 样 下 来 ， 项 目 成 功 的 概率 就 会 提升 ， 部 署 过 程 中 出 现 意外 
的 风险 也 就 降低 了 。 
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第 12 章 





其 他 数据 科学 任务 与 技术 


基本 概念 : 作为 许多 数据 科学 常用 技术 基础 的 基本 概念 ; 熟悉 数据 科学 构件 块 的 


重要 性 


示例 方法 : 关联 和 共 现 ; 行为 分 析 ; 链 路 预测 ; 数据 约 简 ; 潜在 信息 挖 握 ; 电影 
推荐 ; 误差 的 偏差 一 方差 分 解 ; 模型 集成 ; 数据 因果 推理 


正如 前 面 草 市 中 所 探讨 的 ， 一 种 从 数据 分 析 角 度 考 虑 团队 处 理 商业 问题 的 有 效 方法 ， 就 是 














想象 他 们 在 处 理工 程 问题 








此 工程 不 是 机 械 工 程 ， 更 不 是 软 伯 





F 工 程 ， 而 是 分 析 工 程 。 商 


业 问 题 本 身 提 供 了 其 解决 方案 的 目标 和 约束 条 件 ， 而 数据 和 领域 知识 提供 了 原材料 ， 数 据 
科学 则 提供 了 可 以 将 问题 分 解 为 子 问题 的 框架 以 及 用 于 解决 这 些 癌 题 
已 经 探讨 过 了 其 中 一 些 最 有 价值 的 概念 框架 和 一 些 最 常用 的 解决 方案 的 构件 块 。 然 而 ， 数 














据 科学 博大 精深 其 至 包含 了 一 整套 学 位 课程 ， 因 此 本 
是 ， 本 书 所 讨论 的 基本 原则 是 大 部 分 数据 科学 的 基础 。 























的 工具 与 技术 。 本 书 


























BA BY BE Ie 


i 俱 到 。 不 过 幸运 的 


与 其 他 工程 问题 相同 ， 把 新 问题 分 解 成 一 系列 能 够 处 理 的 小 问题 ， 比 从 头 建 立 一 套 自 定义 
解决 方案 要 高 效 得 多 。 分 析 工 程 也 没什么 不 同 ， 数 据 科 学 同样 会 提供 大 量 工 具 ， 以 便 我 们 





处 理 常 见 或 特殊 的 任务 。 因 此 ， 我 们 将 用 一 些 最 常见 的 工具 条 
工具 和 方法 包括 查找 相关 性 /找到 富 信息 变量 、 寻 找 相似 实 体 、 分 类 、 类 概率 估计 、 回 


FIR. 























[方法 来 阐释 基本 原理 。 这 些 
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以 上 这 些 都 是 用 于 最 常见 的 数据 科学 任务 的 工具 ， 但 第 2 章 告 诉 我 们 ， 这 样 的 工具 还 有 很 
多 。 幸 运 的 是 ， 以 上 任务 的 内 在 基本 概念 同样 也 是 其 他 任务 的 内 在 基本 概念 。 因 此 ， 既 然 
我 们 已 经 展示 过 这 些 概念 ， 接 下 来 就 来 简单 讨论 一 下 其 他 没有 探讨 过 的 任务 和 技术 。 
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12.1 共 现 和 关联 : 寻找 匹配 项 


共 现 分 组 或 关联 发 现 是 根据 涉及 实体 的 事件 ， 找 出 实体 间 的 关联 。 为 什么 要 找到 这 样 的 
共 现 呢 ? 因为 这 种 方法 有 很 多 应 用 场景 。 试 想 一 个 面向 用 户 的 应 用 场景 。 假 设 我 们 在 做 
线 上 零售 ， 那 么 根据 用 户 的 购物 复数 据 ， 我 们 可 以 告诉 他 :“ 购 买 eWatch 的 用 户 也 买 了 
eBracelet 蓝牙 扬声器 伴侣 。 如 果 这 些 关联 的 确 捕捉 到 了 真实 的 消费 者 偏好 ， 那 么 不 只 交 
又 销售 收入 可 能 得 到 提高 ， 消 费 者 体验 也 会 同时 得 到 提升 (在 本 例 中 ， 就 是 使 本 来 非 并 体 
声 的 eWatch 可 以 播放 立体 声音 乐 )。 因 而 这 些 关联 充分 利用 了 数据 资产 ， 创 造 了 额外 的 客 
户 忠 诚 度 。 


请 考虑 另 一 个 业务 应 用 场景 : 把 产品 从 全 球 范围 内 的 许多 配送 中 心 配送 给 线 上 客户 。 不 是 
所 有 配送 中 心 都 有 全 部 商品 的 库存 ， 实 际 上 ， 规 模 较 小 的 、 区 域 性 的 配送 中 心 只 会 存储 卖 
得 较 好 的 产品 。 尽 管 建立 这 些 区 域 配送 中 心 是 为 了 降低 运费 ， 然 而 实际 上 我 们 会 发 现 , 仍 
然 有 很 多 订单 要 么 必须 从 主 配 送 中 心 发 货 ， 要 么 需要 进行 多 次 配送 。 原 因 是 ， 在 同一 个 订 
单 中 ， 客 户 不 仅 会 购买 人 气 商品 ， 也 会 购买 不 那么 受 欢迎 的 商品 。 这 个 商业 问题 就 可 以 通 
过 挖掘 数据 中 的 关联 来 解决 。 如 果 一 些 不 那么 受 欢迎 的 商品 的 确 常常 和 人 气 商 品 同时 出 
现 ， 那 么 我 们 也 可 以 在 区 域 性 配送 中 心 增 加 它们 的 库存 ， 从 而 大 幅 降 低 运 费 。 


共 现 分 组 就 是 在 数据 中 寻找 统计 数字 “有 趣 ” 的 数据 项 组 合 。 虽 然 设计 该 任务 的 方法 有 很 
多 种 ， 但 是 请 把 共 现 当 作 一 条 规则 :“ 如 果 4 出现， 那么 妃 也 有 可 能 出 现 .” 那 么 , 4 可 能 
是 出 售 eWatch， 而 B 可 能 是 出 售 eBracelet。'“ 有 趣 ” 的 统计 数据 通常 会 遵循 基本 原则 。 


首先 ， 我 们 需要 控制 复杂 度 。 共 现 关系 可 能 有 成 千 上 万 种 ， 其 中 很 多 只 是 偶然 的 ， 而 不 是 
可 泛 化 的 模式 。 一 种 控制 复杂 度 的 简单 方法 是 建立 约束 条 件 ， 即 符 该 合共 现 规则 的 数据 必 
须 达 到 某 个 最 小 比例 ， 比 如 要 求 至 少 所 有 交易 的 0.01% 符合 该 共 现 规 则 。 这 就 叫 作 关 联 的 
支持 度 。 


其 实在 关联 中 还 有 一 个 “可 能 ”的 概念 : 如 果 客 户 买 了 eWatch， 那 么 他 可 能 也 会 购买 
eBracelet。 我 们 希望 所 找到 的 关联 符合 革 个 最 小 的 可 能 性 ， 并 用 已 经 见 过 的 一 些 概念 来 量 
化 这 个 概念 。 我 们 已 经 知道 4 发 生 时 B 也 发 生 的 概率 是 p(8|4)， 它 在 关联 挖 据 中 被 称 为 
规则 的 置信 度 或 强度 。 在 这 里 还 是 称 之 为 “强度 ”， 和 统计 中 的 置信 度 区 别 开 。 因 此 ， 我 
们 可 以 说 要 求 规则 的 强度 超过 某 个 国 值 ， 比 如 5% (也 就 是 说 ， 在 5% 或 者 更 多 的 情况 下 ， 
购买 4 的 客户 同时 也 购买 了 B)。 


12.1.1 度量 意外 : 提升 度 和 杠杆 率 


最 后 ， 我 们 还 是 希望 关联 能 在 某 种 意义 上 让 我 们 感到 “意外 。 数 据 挖掘 中 有 许多 关于 意 
外 的 定义 ,但 其 中 大 部 分 将 所 发 现 的 知识 同 先 验 背 景 知识 、 直 觉 和 常识 相 联 系 。 换 句 话 
说 ， 关 联 只 有 在 与 我 们 之 前 知道 或 相信 的 事情 相悖 时 ， 才 算是 意外 的 。 虽 然 研究 者 们 研 
究 了 如 何 处 理 这 种 很 难 编纂 的 知识 ， 但 是 在 实践 中 ， 自 动 处 理 它们 并 不 常见 。 相 反 ， 数 
据 科学 家 和 商业 用 户 往往 会 对 长 长 的 关联 列表 进行 深入 分 析 ， 从 而 剔 除 那 些 意料 之 中 的 
关联 。 






































































































































注 1: 4 和 B 也 可 以 是 多 个 数据 项 ， 比 如 下 文中 的 Facebook 点 赞 。 但 目前 我 们 假定 它们 都 是 单个 数据 项 。 
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然而 ， 有 一 个 度量 意外 的 指标 可 以 仅 根据 数据 计算 出 ， 该 指标 尽管 相对 较 弱 ， 却 很 直观 。 
它 就 是 提升 度 ， 即 某 种 关联 出 现 的 频率 比 偶然 出 现 高 多 少 ， 我 们 已 经 在 另 一 个 情景 中 遇 到 
过 它 了 。 如 果 超 市 购物 复数 据 中 的 关联 告诉 我 们 人 们 经 常 同时 购买 面包 和 和 牛奶， 我 们 可 能 
会 觉得 理 所 应 当 ， 因 为 购买 牛奶 和 购买 面包 的 人 都 很 多 。 因 此 我 们 认为 它们 频繁 同时 出 现 
仅仅 是 偶然 。 如 果 关 联 出 现 的 次 数 比 偶然 情况 下 更 频繁 ， 那 么 该 关联 就 是 意料 之 外 的 。 提 
升 度 的 计算 仅 需 应 用 概率 的 基本 概念 。 


公式 12-1: 提升 度 












































p(A,B) 

p(A)p(B) 

简单 地 说 ,4 与 B 的 共 现 的 提升 度 是 两 者 实际 同时 出 现 的 概率 ， 与 两 者 不 相关 (互相 独 
立 ) 时 同时 出 现 的 概率 相 比 较 的 结果 。 和 之 前 所 学 的 提升 度 用 法 一 样 ， 大 于 1 的 提升 度 指 
4 的 出 现 “ 提 升 ” 了 B 出 现 的 可 能 性 。 

提升 度 只 是 计算 所 发 现 的 关联 出 现 的 概率 比 偶然 情况 下 高 多 少 的 方法 的 其 中 一 种 ， 另 一 种 
方法 则 是 计算 两 个 量 的 差 值 〈 而 非 比例 ) ， 被 称 作 杠杆 率 。 

公式 12-2: 杠杆 率 





提升 度 (4,8)= 











杠杆 率 (4,B) = p(B, A) - p(A)p(B) 


你 需要 花 点 时 间 来 理解 两 种 方法 。 甚 中 一 种 适用 于 几乎 不 可 能 偶然 出 现 的 关联 ， 而 另 一 种 
则 更 适用 于 相对 更 可 能 偶然 出 现 的 关联 。 


12.1.2 示例 : 啤酒 和 彩票 

在 “eWatch 和 eBracelet” 的 示例 中 ， 我 们 已 经 得 知 ， 关 联 发 现 通常 用 于 在 购物 篮 分 析 中 寻 
找 和 分 析 所 购物 品 的 共 现 关系 。 请 看 另 一 个 具体 示例 。 

假设 我 们 开 了 一 家 小 型 便利 店 ， 人 们 会 过 来 购买 杂货 、 酒 、 彩 票 等 。 再 假设 我 们 一 年 进行 
一 次 交易 分 析 ， 而 在 这 次 分 析 中 我 们 发 现 ， 人 们 常常 会 同时 购买 啤酒 和 彩票 。 但 我 们 也 知 
道 ， 人 们 在 店 里 购买 啤酒 和 彩票 都 是 常事 。 假 设 交易 总 量 的 30% 包含 啤酒 ， 而 同时 包含 啤 
酒 和 彩票 的 交易 居然 占 20% | 这 样 的 共 现 是 有 趣 的 吗 ? 还 是 单纯 因为 两 种 商品 太 受 欢迎 ? 
关联 统计 量 可 以 帮 有 我 们 做 出 判断 。 

首先 ， 我 们 要 陈述 一 条 代表 这 种 信念 的 关联 规则 :“ 购 买 啤酒 的 客户 也 可 能 购买 彩票 "， 或 
更 简洁 地 说 , “啤酒 > 彩票 "。 然 后 ， 让 我 们 计算 这 种 关联 的 提升 度 。 已 知 一 个 所 需 值 ; 
p( 啤 酒 ) = 0.3。 假 设 彩票 的 人 气 也 很 高 : p( 彩 票 ) = 0.4。 如 果 两 种 商品 完全 不 相关 (独立 )， 
那么 它们 被 同时 购买 的 概率 就 是 两 者 各 自 概率 的 乘积 : p( 啤 酒 ) x p( 彩 票 ) = 0.12。 

我 们 还 已 知人 们 同时 购买 两 种 商品 的 实际 概率 ( 即 数据 中 的 频率 ) p( 彩 票 , 啤酒 )， 该 概率 
通过 在 收 款 机 数据 中 寻找 所 有 包含 啤酒 和 彩票 的 交易 得 知 。 如 上 所 述 ， 因 为 20% 的 交易 同 
时 包含 两 者 ， 也 就 是 p( 彩 票 , 啤酒 ) x 0.2， 所 以 提升 度 是 0.2/0.12， 约 为 1.67。 这 表示 事实 
上 同时 购买 彩票 和 啤酒 的 概率 是 偶然 情况 下 同时 购买 二 者 的 概率 的 1.67 倍 。 从 而 ， 我 们 可 
以 推断 二 者 的 确 存在 一 定 关 系 ， 但 二 者 共 现 的 主要 原因 还 是 它们 都 颇具 人 气 。 
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那么 杠杆 率 呢 ?” 此 处 杠杆 率 是 p( 彩 票 , 啤酒 ) -P( 彩 票 ) xP( 啤 酒 )， 也 就 是 0.2-0.12 = 0.08, 
不 管 出 于 什么 原因 ， 总 之 二 者 实际 被 同时 购买 的 概率 比 仅 仅 因为 二 者 都 是 人 气 商 品 而 导致 
的 同时 购买 概率 高 出 了 8 个 百分比 。 


我 们 还 需 计 算 另 外 两 个 重要 统计 量 : 支持 度 和 强度 。 关 联 的 支持 度 就 是 同时 购买 二 者 在 总 体 
数据 里 所 占 比例 ， 即 p( 彩票 , 啤酒 )， 其 值 为 20%， 而 强度 则 指 条 件 概 率 ， 即 p( 彩票 | 啤酒 )， 
其 值 为 67%。 


12.1.3 ” Facebook 点 赞 的 关联 


虽然 关联 发 现 通常 用 于 购物 篮 数 据 ， 有 时 甚至 被 称 作 购 物 篮 分 析 ， 但 是 这 个 技术 的 应 用 其 
实 比 这 更 为 普遍 。 我 们 可 以 用 第 9 章 的 Facebook“ 点 赞 ”示例 来 说 明 。 回 忆 一 下 ， 我 们 拥 
有 大 量 关 于 Facebook 用 户 “ 点 赞 ” 过 的 事物 的 数据 (Kosinski, Stillwell & Graepel, 2013). 
类 比 购物 篮 数据 ， 可 以 认为 每 个 用 户 都 有 一 个 “点 赞 ” 的 篮子 ， 装 有 该 用 户 所 有 的 点 赞 数 
据 。 现 在 请 回答 这 个 问题 ， 某 些 “ 赞 ”实际 同时 出 现 的 情况 是 否 比 偶然 同时 出 现 的 情况 更 
频繁 ? 虽然 这 个 有 趣 的 示例 将 仅 用 于 说 明 关 联 发 现 ， 但 整个 过 程 其 实 有 重要 的 商业 应 用 。 
如 果 你 是 一 个 希望 了 解 某 个 特定 市 场 中 客户 的 销售 人 员 ， 那 你 可 能 会 想 要 找到 人 们 点 赞 的 
模式 。 如 果 你 从 数据 分 析 角 度 进行 思考 ， 那 么 你 将 恰好 应 用 本 章 中 我 们 到 目前 为 止 说 明 过 
的 思维 方式 : 你 会 想 要 知道 哪些 内 容 的 共 现 比 偶 然 情 况 下 更 频繁 。 


在 开始 挖掘 数据 前 ， 先 介绍 一 个 更 有 助 于 关联 发 现 的 概念 。 由 于 我 们 现在 使 用 购物 篮 作为 
类 比 ， 因 而 要 考虑 物品 所 指 代 的 究竟 是 什么 。 为 什么 不 把 所 有 可 以 用 于 寻找 我 们 感 兴趣 的 
关联 的 数据 都 放 进 笑 子 ?” 比 如， 我们 可 以 把 用 户 定位 放 进 段子 ， 然 后 观察 点 赞 和 定位 间 的 
关联 。 在 实际 购物 复数 据 中 ， 这 些 项 有 时 被 称 作 虚 拟 项 ， 以 便 将 其 与 人 们 得 商店 时 实际 放 
进 购 物 篮 的 物品 区 别 开 来 。 关 于 Facebook 数据 ， 我 们 曾经 获取 了 许多 用 户 的 心理 测量 数 
据 ， 比 如 外 向 或 随和 的 程度 、IQ 测试 的 得 分 等 。 通 过 关联 发 现 来 寻找 这 些 心理 测量 特征 间 
的 关联 ， 应 该 会 很 有 趣 。 

有 监督 和 无 监督 

我 们 必须 说 记 有 监督 型 和 无 监督 型 数据 挖掘 的 区 别 。 如 果 想 要 具体 理解 与 随 

和 的 性 格 或 与 给 我 们 的 品牌 点 赞 最 相关 的 数据 项 ， 我 们 就 应 该 构建 一 个 有 监 
督 的 问题 ， 附 带 对 应 的 目标 变量 。 这 正 是 第 9 章 中 的 证 据 提 升 度 和 本 书 中 所 
有 有 监督 划分 所 做 的 。 如 果 在 没有 有 具体 目标 的 情况 下 探索 数据 ， 那 么 关联 分 
析 会 更 加 适用 。 有 监督 和 无 监督 挖掘 的 区 别 可 以 参考 第 6 章 在 聚 类 背景 下 的 
讨论 ， 而 那些 基本 概念 也 适用 于 关联 挖掘 。 







































































好 了 ， 接 下 来 我 们 看 看 Facebook 的 点 赞 数据 中 究竟 存在 什么 关联 。 "寻找 这 些 关 联 用 到 了 
一 个 常用 的 关联 挖掘 系统 Magnum Opus ， 它 能 寻找 提供 最 大 提升 度 或 最 高 杠杆 率 的 关联 ， 
同时 过 滤 因 出 现 次 数 太 少 而 不 够 有 趣 的 关联 。 下 文中 的 列表 展示 了 Facebook 点 赞 中 一 些 
提升 度 最 高 的 关联 ， 此 处 关联 的 阔 值 是 至 少 包含 数据 集中 1% 的 用 户 。 这 些 关 联 是 否 有 意 














注 2: 感谢 Wally Wang 的 鼎力 相助 。 
注 3: 详 见 http://www.giwebb.com/, 
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义 ? 是 否 能 告诉 我 们 用 户 喜好 之 间 的 关系 ?你 会 


些 关联 至 少 比 偶然 出 现 的 概率 高 20 倍 。 


《恶搞 之 家 》 & 
支持 度 =0.010; 强 
《 千 与 千 寻 》 -> 


支持 度 =0.011， 强 


Selena Gomez -> 


支持 度 =0.010， 强 





《每 日 秀 》 -> 


《 哈 尔 的 移动 城堡 》 


Demi Lovato 


现 这 些 提升 度 都 大 于 20， 也 就 是 说 ， 这 


《 科 尔 伯 特 报告 》 
度 =0.793; 提升 度 =31.32， 杠 杆 率 =0 .0099 


度 =0.556; 提升 度 =30.57; 杠杆 率 =0.0108 


度 =0.419;， 提升 度 =27.59; 杠杆 率 =0.0100 


I really hate slow computers & Radom laughter when remembering something -> 


Finding Mone 


支持 度 =0.010， 强 


011; 强 





y In Your Pocket 


-> high 起 来 ! 


度 =0.726; 提升 度 =25.80， 杠 杆 率 =0.0099 


度 =0.529; 提升 度 =25.53; 杠杆 率 =0.0106 


Linkin Park & Distrubed & System of a Down & Korn -> Slipkont 


支持 度 =0 .011; oR 


Lil Wayne & Riha 
支持 度 =0.011; 强 
彩虹 糖 & 激 浪 -> 
支持 度 =0.010; 强 
海绵 宝宝 & 匡威 
支持 度 =0.010; 强 


Rihanna & Taylor 
支持 度 =0.010 强 





二 


nna -> Drake 
佳 得 乐 
度 =0.519， 提 升 度 =25.23; #1 


-> 派 大 星 
度 =0.654; 提升 度 =24.94; +] 








Swift -> Miley Cyrus 
度 =0.490; 提升 度 =24.90; #1 


度 =0.862; 提升 度 =25.50;， 杠杆 率 =0.0107 


度 =0.619; 提升 度 =25.33; 杠杆 率 =0.0104 


[ 杆 率 =0 .0100 


[ 杆 率 =0 .0097 


[ 杆 率 =0 .0100 


Disturbed & Three Days Grace -> Breaking Benjamin 


支持 


Eminem & Lil Way 
支持 度 =0.014;， 强 


Adam 
支持 


度 =0.012; 强 








度 =0.010; 强 


Pink Floyd & Slipknot & System of a Down -> 


支持 度 =0.010， 强 


音乐 & 日 本 动画 
支持 度 =0.011， 强 








支持 度 =0.012， 强 


Rihanna & Drake 


支持 度 =0 .011; 强 


I Love Cookie Do 


支持 度 =0.014; 强 











度 =0.701， 提升 度 =24.64;， 相 


ne -> Drake 


度 =0.594; 提升 度 =24.30;， 相 


Sandler & System of a Down & Korn -> 


度 =0.819; 提升 度 =24.23; #1 


度 =0 .810; 提升 度 =24.05; #4 
-> 日 本 漫画 

度 =0 .675; 提升 度 =23.99， #4 
度 =0.568; 提升 度 =23.86; +] 


-> Lil Wayne 
度 =0.849; 提升 度 =23.55;， #4 


ugh -> 酸味 条 状 凝 胶 糖 果 
度 =0.569， 提 升 度 =23.28; #1 





[ 杆 率 =0.0117 


[ 杆 率 =0.0131 


Slipknot 
[ 杆 率 =0.0097 


Korn 
[ 杆 率 =0.0097 


[ 杆 率 =0.0110 


中 等 IQ & 酸味 条 状 凝 胶 糖 果 -> I Love Cookie Dough 


[ 杆 率 =0.0118 


[ 杆 率 =0.0104 








[ 杆 率 =0.0130 





域 : 


Laughing until it hurts and you can't breathe! & I really hate slow computers -> 
Finding Money In Your Pocket 


支持 度 =0.010， 强 度 =0.651; 提升 度 =23.12， 杠杆 率 =0.0098 


Evanescence & Three Days Grace -> Breaking Benjamin 


支持 度 =0.012;， 强度 =0.656; 提升 度 =23.06;， 杠杆 率 =0.0117 

















迪士尼 & 迪士尼 乐园 -> 迪士尼 世界 









































支持 度 =0.011;， 强度 =0.615;， 提升 度 =22.95， 杠杆 率 =0.0103 


i finally stop 








支持 度 =0.011; 强度 =0.451;， 提升 度 =22.92;， 杠杆 率 =0.0104 


Selena Gomez 


-> Miley Cyrus 





支持 度 =0.011; 强度 =0.443; 提升 度 =22.54， 杠 杆 率 =0.0105 


RAEE 





& 星 爆 果 计 软 糖 -> ZORRA AL BE 





支持 度 =0.011; 强度 =0.493; 提升 度 =22.52;， 杠杆 率 =0.0102 


彩虹 糖 & 海绵 宝宝 -> 派 大 星 














支持 度 =0.012; 强度 =0.599， 提升 度 =22.49， 杠 杆 率 =0.0112 


迪士尼 & 多 莉 ' & 《玩具 总 动员 》 -> 《海底 总 动员 》 
支持 度 =0.6011;， 强度 =0.777; 提升 度 =22.47;， 杠杆 率 =0.0104 





Katy Perry & Taylor Swift -> Miley Cyrus 





支持 度 =0.011;， 强度 =0.441; 提升 度 =22.43;， 杠杆 率 =0.0101 


AKON & Black Eyed Peas -> Usher 








支持 度 =0.010; 强度 =0.731; 提升 度 =22.42;， 杠杆 率 =0.0097 


Eminem & Drake 





-> Lil Wayne 











支持 度 =0.014; 强度 =0.807， 提 升 度 =22.39， 杠 杆 率 =0.0131 


大 部 分 应 用 关联 挖掘 示例 的 领域 (如 Facebook 点 赞 )， 读 者 比较 了 解 。 这 是 因为 ， 由 于 挖 
据 是 无 监督 的 ， 因 而 在 评估 环节 更 关键 的 是 领域 知识 验证 (回忆 第 6 章 的 探讨 ) ， 而 如 果 
不 这 么 选择 ， 那 么 目标 任务 的 定义 就 可 能 因 不 够 明确 而 不 能 用 于 客观 评估 。 然 而 ， 关 联 挖 
掘 的 一 种 有 趣 的 实际 用 途 就 是 研究 我 们 不 那么 了 解 的 数据 。 假 设 你 要 开始 一 项 新 工作 ， 探 
索 公 司 客户 的 交易 数据 以 检验 强 共 现 关 系 可 以 让 你 很 快 对 客户 群 的 喜好 有 一 个 大 体 认 识 。 
因此 ， 考 虑 到 这 一 点 


了 解 客户 喜好 。 


12.2 用户 画 像 : 寻找 典型 行为 


H 





有 户 画 像 的 目的 是 描述 个 人 、 群 组 或 总 体 的 典型 行 
个 客户 分 组 的 典型 信用 卡 使 用 习惯 是 什么 ? ”虽然 我 们 可 以 简 六 








\， 请 回顾 Facebook 点 赞 中 存在 的 共 现 ， EERE 

















表述 ， 但 在 我 们 的 商业 问题 中 ， 这 样 简单 的 描述 可 能 无 法 充分 代表 用 








注 








E4: 《海底 总 动员 》 4 








fi. 译 者 注 














laughing... look back over at you and start all over again -> 
That awkward moment when you glace at someone starting at you. 


不 是 流行 文化 领 





这 些 关 联 和 其 他 类 似 的 关联 (有 大 量 这 样 的 关联 ) 会 给 你 提供 一 个 非常 广泛 的 视角 来 


为 特征 。 比 如 有 这 样 一 个 问题 “这 
和 地 用 开支 的 均值 来 进行 














户 行为 。 举 个 例 
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子 ， 欺 诈 检 测 经 常会 使 用 用 户 画 像 来 描绘 用 户 的 一 般 行 为 ， 然 后 找 出 用 户 明 显 不 符合 常态 
的 行为 ， 尤 其 是 那些 曾经 指示 出 其 诈 现 象 的 行为 (Fawcett & Provost, 1997; Bolton & Hand, 
2002)。 坎 诈 检测 的 画像 可 能 需要 关于 用 户 工作 日 和 周末 信用 卡 使 用 均值 、 信 用 卡 跨国 使 用 
情况 、 商 家 和 产品 类 别 的 使 用 情况 和 可 疑 商家 的 使 用 情况 复杂 的 描述 。 用 户 行为 的 画像 一 
般 可 以 在 整个 总 体 、 小 群体 、 甚 至 每 个 人 的 层面 上 来 进行 。 比 如 ， 针 对 每 个 信用 卡 用 户 ， 
我 们 可 以 根据 其 信用 卡 的 跨国 使 用 情况 来 画像 ， 以 免 因为 出 国旅 游 而 产生 过 多 误 报 。 


用 户 画 像 对 前 面 探讨 过 的 概念 进行 了 组 合 ， 如 果 总 体 中 存在 不 同行 为 的 子 组 ， 那 么 用 户 画 
像 也 会 对 其 进行 聚 类 。 许 多 画像 方法 看 似 复杂 ， 实 际 上 却 只 是 第 4 章 介绍 的 基本 概念 的 体 
OL: 先 用 一 些 参 数 定义 一 个 数值 函数 ， 再 定义 一 个 目标 ， 然 后 找 出 最 符合 目标 的 参数 。 


那么 请 考虑 一 个 企业 运营 管理 的 简单 例子 。 企 业 想 通过 数据 得 知 自己 的 客户 服务 中 心 为 客 
户 提供 个 人 支持 的 效果 如 何 ， 好 的 个 人 支持 的 其 中 一 个 方面 是 不 让 客户 长 时 间 等 待 。 那 么 ， 
我 们 该 如 何 描绘 打 电 话 到 客服 中 心 的 客户 的 一 般 等 待 时 间 呢 ? 答案 是 计算 等 待 时 间 的 均值 
和 标准 差 。 

这 种 做 法 似乎 正 是 略 懂 基础 统计 的 管理 者 会 做 的 ， 实 际 上 这 也 是 模型 拟 合 的 一 个 简单 例 
子 ， 其 原因 如 下 。 假 设 客户 的 等 待 时 间 服 从 正 态 分 布 (也 称 高 斯 分 布 ， 这 样 的 说 法 可 能 会 
让 不 懂 数 学 的 读者 望而却步 ， 但 这 其 实 只 代表 该 分 布 是 一 条 钟 形 曲 线 ， 且 有 许多 优良 性 
质 )。 重 要 的 是 ， 这 条 曲线 是 等 待 时 间 的 “画像 ”，( 本 例 中 ) 只 有 两 个 重要 参数 : 均值 和 
标准 差 。 一 旦 计算 出 两 者 ， 我 们 就 找到 了 在 正 态 分 布 的 假设 下 ， 描 述 等 待 时 间 的 “最 佳 ” 
画像 或 模型 。 本 例 中 的 “最 佳 ” 和 逻辑 回归 里 的 “最 佳 ”含义 相同 ， 比 如 ， 根 据 开 支 所 计 
算出 的 均值 可 以 告诉 我 们 最 可 能 生成 该 数据 (“最 大 似 然 ”模型 】 的 高 斯 分 布 的 均值 。 


这 个 观点 说 明了 ， 为 什么 数据 科学 视角 在 简单 情景 下 也 会 有 帮助 : 在 计算 平均 值 和 标准 差 
时 ， 尽 管 对 学 过 的 统计 知识 印象 已 经 很 模糊 了 ， 但 我 们 对 正在 做 的 事情 比 之 前 清楚 得 多 。 
我 们 还 需要 牢记 在 第 4 章 介 绍 并 在 第 7 章 详细 阐述 的 基本 原则 : 要 想 清楚 我 们 从 数据 科学 
结果 中 究竟 要 得 到 什么 。 而 这 里 我 们 想 搞 绘 的 是 客户 的 “一 般 ” 等 待 时 间 。 如 果 根 据 绘 医 
的 结果 ， 数 据 看 起 来 不 像 高 斯 分 布 〈 对 称 钟 形 曲线 ， 在 尾部 迅速 降 为 0) ， 那 我 们 就 可 能 需 
要 学 虑 计算 均值 和 标准 差 了 ， 我 们 也 可 以 计算 中 位 数 (因为 中 位 数 对 偏 度 不 敏感 ) 或 去 拟 
合 另 一 种 分 布 ( 可 能 需要 和 从 事 统 计 学 的 数据 科学 家 讨论 一 下 哪 种 更 合适 )。 


为 说 明 精 通 数据 科学 的 管理 者 可 能 如 何 继续 处 理 该 问题 ， 我 们 来 看 一 下 几 个 月 内 客户 给 银 
行 客服 中 心 致电 的 等 待 时 间 的 分 布 ， 见 图 12-1。 重 要 的 是 ， 我 们 能 看 出 对 分 布 的 可 视 化 
如 何 帮助 我 们 发 现 数据 科学 上 的 问题 。 因 为 图 中 的 分 布 并 不 是 对 称 的 钟 形 曲 线 ， 所 以 接 下 
来 ， 我 们 认为 单纯 通过 均值 和 标准 差 来 描述 等 待 时 间 不 太 合理 。 比 如 ， 均 值 (100) 似乎 
并 不 能 描述 客户 的 一 般 等 待 时 间 ， 因 为 这 个 值 太 大 了 。 技 术 上 ， 因 为 分 布 的 “长 尾 ” 会 导 
致 均值 偏 高 ， 所 以 这 并 不 能 真实 反映 大 部 分 数据 的 实际 位 置 ， 因 而 不 能 真实 反映 客户 的 一 
般 等 待 时 间 。 


为 了 更 深入 地 了 解 精通 数据 科学 的 管理 者 处 理 该 问题 的 方法 ， 本 章 将 对 此 做 进一步 探讨 ， 
但 只 会 探讨 处 理 偏 态 数 据 的 一 种 常用 方法 ， 不 会 深入 细 市 ， 对 等 待 时 间 取 对 数 Clog). 









































































































































































































































注 5: 欢迎 感 兴趣 的 读者 阅读 Brown 等 人 在 这 方面 的 技术 处 理 和 细节 (2005), 
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图 12-2 中 所 展示 的 分 布 与 图 12-1 相同 ， 但 对 等 待 时 间 取 了 对 数 。 我 们 可 以 看 到 ， 在 进行 
了 一 小 步 转化 之 后 ， 等 待 时 间 的 分 布 就 很 像 经 典 钟 形 曲 线 了 。 
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图 12-1: 客户 给 银行 客服 中 心 致电 的 等 待 时 间 的 分 布 

















来 电 占 比 


等 待 时 间 











图 12-2， 对 数据 略 作 重 新 定义 后 ， 客 户 给 银行 客服 中 心 致电 的 等 待 时 间 的 分 布 
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实际 上 ， 如 上 文 所 述 ， 图 12-2 还 展示 了 符合 钟 形 分 布 的 高 斯 分 布 〈 钟 形 曲线 ) 。 它 确实 拟 
合 得 很 好 ， 因 此 我 们 可 以 将 均值 和 标准 差 作 为 取 对 数 后 等 待 时 间 的 概括 统计 量 。 


这 个 简单 的 示例 可 以 很 好 地 扩展 到 更 复杂 的 情形 中 。 换 个 背景 ， 假 设 要 根据 用 户 在 我 们 网 
站 上 所 花 的 钱 和 时 间 对 用 户 行为 进行 画像 。 如 图 12-3 中 的 数据 点 所 示 ， 我 们 认为 这 两 者 
相关 ， 但 不 完全 相关 。 在 这 里 要 重申 一 种 非常 常用 的 方法 ， 也 就 是 第 4 章 中 所 学 的 基本 概 
D: 选 定 一 个 参数 化 数值 函数 和 一 个 目标 ， 然 后 寻找 使 目标 达到 最 大 值 的 参数 。 比 如 ， 我 
们 可 以 选择 二 维 高 斯 函数 ， 它 的 图 像 并 不 是 一 条 钟 形 曲 线 ， 而 是 一 个 钟 形 椭圆 ， 即 一 个 中 
心 密度 极 大 、 越 靠近 边缘 密度 越 小 的 椭圆 形 斑点 。 图 12-3 将 该 图 像 表现 为 等 高 线形 式 .。 
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图 12-3; 根据 用 户 在 我 们 网 站 上 所 花费 的 钱 和 时 间 所 构造 的 用 户 画 像 ， 以 数据 的 二 维 高 斯 拟 合 的 形 
式 表示 

我 们 可 以 继续 提升 用 户 画 像 的 复杂 程度 。 如 果 我 们 认为 客户 群 中 存在 不 同 的 子 组 ， 而 不 同 
子 组 中 的 客户 行为 不 同 ， 那 么 该 怎么 办 呢 ? 可 能 我 们 就 不 会 愿意 只 用 高 斯 分 布 来 拟 合 客户 
行为 了 。 然 而 ， 我 们 可 能 乐于 假设 客户 被 分 为 上 组 ， 每 个 组 的 行为 都 服从 正 态 分 布 ， 然 后 
用 多 个 高 斯 函数 来 拟 合 模型 。 我 们 把 这 样 的 模型 称 为 高 斯 混合 模型 GMM)。 然 后 我 们 再 
次 应 用 基本 概念 ， 用 最 大 似 然 参 数 找 出 最 符合 数据 的 维 高 斯 函数 (根据 具体 的 目标 函数 
而 定 )。 图 12-4 中 上 = 2， 该 图 像 展 现 了 拟 合 过 程 识 别 出 客 户 中 2 个 群体 的 过 程 ， 甚 中 每 个 
群体 都 用 二 维 高 斯 分 布 刻画 。 






























































注 6: 接受 过 统计 训练 的 数据 科学 家 可 能 一 眼 就 能 看 出 原始 数据 的 分 布 形 状 ， 如 图 12-1 所 示 。 这 就 是 所 谓 
的 对 数 一 正 态 分 布 ， 即 问题 中 的 量 的 对 数 形式 呈正 态 分 布 。 
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图 12-4: 根据 客户 在 我 们 网 站 上 所 人 花 的 时 间 和 钱 ， 对 客户 构建 用 户 画像 ， 并 用 高 斯 混合 模型 (GMM) 
表示 ， 其 中 拟 合 数据 的 高 斯 函数 均 为 二 维 。GMM 在 这 两 个 维度 上 对 客户 进行 了 “ 软 ” 聚 类 


现在 我 们 有 了 相当 复杂 的 用 户 画 像 ， 这 是 对 基本 原则 的 一 次 简单 应 用 。 需 要 注意 的 一 点 
是 ,虽然 GMM 能 进行 聚 类 ， 但 它 与 第 6 章 中 的 聚 类 方法 不 同 。 本 例 展示 了 基本 概念 (而 
不 是 某 个 任务 或 算法 ) 是 如 何 构成 数据 科学 的 基础 的 。 在 此 情况 下 ， 聚 类 像 分 类 和 回归 一 
样 ， 可 以 有 很 多 途径 。 

“ik” RA 

顺便 一 提 ， 你 可 能 发 现 GMM HE ROBES HAT A, KERAY GMM 进行 的 

是 “ 软 ” 聚 类 ， 也 称 概率 聚 类 。 其 中 ， 每 个 点 并 不 严格 地 属于 其 个 从， 而 是 

被 虐 子 属于 每 个 伐 的 程度 或 概率 。 在 这 样 的 聚 类 中 ， 尽 管 我 们 可 以 认为 某 些 

M (ERE) 更 有 可 能 来 自 某 个 义 ， 然 而 这 些 点 仍 有 可 能 来 自任 何 仿 。 























12.3 链 路 预测 和 社交 推荐 


有 时 ， 与 其 预测 数据 项 的 性 质 (目标 变量 值 )， 不 如 预测 数据 项 之 间 的 关系 。 一 个 常见 例 
子 就 是 预测 两 个 人 之 间 的 关系 。 链 路 预测 在 社交 网 络 系统 中 非常 常用 ， 比 如 :“ 既 然 你 和 
Karen 有 10 个 共同 好 友 ， 那 么 或 许 你 想 关 广 一 下 Karen ? ” 链 路 预测 也 能 估计 关系 的 强 
度 。 比 如 ， 在 给 用 户 推荐 电影 时 ， 我 们 可 以 把 用 户 和 他 们 所 看 过 或 评 过 分 的 电影 设想 成 一 
幅 图 ， 并 在 其 中 寻找 那些 不 存在 但 根据 预测 应 该 存在 且 强 度 较 大 的 关系 ， 而 这 些 关系 就 是 
推荐 的 基础 。 

链 路 预测 的 方法 有 很 多 ， 即 使 本 书 用 一 整 章 篇 幅 也 无 法 详尽 描述 。 然 而 ， 我 们 可 以 根据 数 
据 科学 的 基本 概念 理解 许多 不 同方 法 。 请 考虑 一 个 社交 网 络 的 案例 : 如 果 要 预测 两 个 人 之 
间 是 否 存 在 关系 或 预测 该 关系 的 强度 ， 你 将 如 何 根据 当前 所 学 知识 定义 问题 ? 这 里 有 一 些 
选择 。 我 们 可 以 假设 存在 关系 的 个 体 之 间 存 在 相似 性 。 然 后 ， 基 于 应 用 场景 中 的 重要 方 
面 ， 我 们 需要 定义 一 个 相似 性 度量 。 
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我 们 是 否 能 在 两 个 人 之 间 定 义 一 个 相似 性 度量 ， 来 度量 他 们 是 否 可 能 想 成 为 朋友 (或 者 已 
经 成 为 好 友 ， 视 情况 而 定 ) ? 当然 可 以 。 直 接 使 用 上 面 的 例子 ， 我 们 可 以 将 相似 性 视 为 共 
享 朋 友 的 数量 。 当 然 ， 相 似 性 度量 应 该 更 加 复杂 。 首 先 根 据 与 好 友 的 互动 量 、 地 理 邻 近 程 
度 或 其 他 因素 ， 对 好 友 进 行 加 权 处 理 ， 然 后 找 出 或 设计 出 包含 这 些 因素 的 相似 性 函数 。 我 
们 可 以 把 这 种 好 友 强 度 作 为 相似 度 的 一 方面 ， 而 相似 性 同时 也 包含 其 他 方面 (因为 在 学 习 
过 第 6 章 后 ， 我 们 更 习惯 于 使 用 多 变量 相似 性 )， 比 如 相同 的 爱好 、 相 同 的 人 口 统计 学 资 
料 等 。 本 质 上 ， 我 们 可 以 通过 思考 把 人 表示 为 数据 的 不 同方 法 来 对 人 应 用 “寻找 相似 数据 
项 ”的 知识 。 


这 是 处 理 链 路 预测 问题 的 一 种 方法 。 接 下 来 ， 请 再 考虑 另外 一 种 ， 以 说 明 这 些 基 本 原则 是 
如 何 应 用 到 其 他 任务 中 的 。 由 于 我 们 想 预测 链 路 的 存在 性 (或 强度 )， 因 而 可 能 需要 把 问 
题 定位 为 预测 建 模 问 题 ， 因 此 就 要 应 用 到 预测 建 模 问 题 的 思考 框架 。 和 以 前 一 样 ， 先 进行 
业务 理解 和 数据 理解 。 什 么 是 数据 项 ?一 开始 我 们 可 能 觉得 所 要 关注 的 是 两 个 实例 之 间 的 
关系 。 因 此 概念 框架 就 派 上 用 场 了 : 保持 我 们 的 一 贯 做 法 ， 定 义 一 个 要 预测 的 实例 。 那 么 
我 们 想 预 测 的 到 底 是 什么 ?是 两 人 之 间 关 系 的 存在 性 (或 强度 ， 但 现在 先 只 考虑 存在 性 )， 
因此 一 个 实例 应 为 两 个 人 1! 


一 旦 我 们 把 一 个 实例 定义 为 两 个 人 ， 就 可 以 顺利 往 下 进行 了 。 下 一 步 ， 其 目标 变量 是 什么 ? 
是 关系 是 否 存在 ， 或 一 旦 进行 推荐 ， 是 否 能 形成 关系 。 这 是 一 个 有 监督 问题 吗 ? 是 的 ， 我 
们 可 以 获取 到 链 路 已 经 存在 或 不 存在 情况 下 的 训练 数据 。 如 果 我 们 想 更 谨慎 ， 那 么 也 可 以 
进行 投资 以 获取 专门 用 于 推荐 问题 的 标签 数据 (可 能 需要 比 定义 关系 的 确切 语义 花 更 多 的 
时 间 )。 其 特征 是 什么 ”其 特征 是 这 两 个 人 的 特征 ， 比 如 他 们 有 多 少 共同 好 友 、 爱 好 有 多 
相似 等 。 既 然 我们 已 经 把 问题 定位 为 预测 建 模 问 题 ， 那 么 就 可 以 开始 寻找 合适 的 模型 和 评 
估 模 型 的 方法 了 。 这 和 一 般 预 测 建 模 问 题 经 历 的 概念 过 程 相同 。 


米 ae g = 4 +4 
12.4 数据 约 简 、 潜 在 信息 和 电影 推荐 
针对 某 些 商业 问题 ， 我 们 希望 把 大 型 数据 集 蔡 换 成 较 小 的 数据 集 ， 但 是 该 小 数据 集 要 保留 
大 数据 集中 的 大 部 分 重要 信息 。 较 小 的 数据 集 不 仅 处 理 起 来 更 方便 ， 或 许 还 能 更 好 地 展现 
其 中 的 信息 。 比 如 ， 消 费 者 观 影 偏 好 的 大 数据 集 可 以 简化 成 小 数据 集 ， 并 且 展 示 出 观 影 : 
据 中 隐藏 的 消费 者 品味 偏好 (比如 对 电影 类 型 的 偏好 )。 虽 然 这 样 的 数据 约 简 通常 需要 牺 
性 一 些 信 息 ， 但 是 在 数据 的 洞察 或 易 处 理性 与 信息 损失 之 间 进 行 权 衡 非常 重要 ， 而 这 种 权 
衡 往 往 证 明 牺 性 信息 是 值得 的 。 
数据 约 简 和 链 路 预测 一 样 ， 都 是 一 种 一 般 任 务 ， 而 不 是 一 种 特殊 技术 。 技 术 有 很 多 种 ， 可 
以 通过 基本 原则 来 了 解 。 让 我 们 以 一 种 常用 技术 为 例 来 进行 讨论 。 
继续 讨论 电影 推荐 问题 。 电 影 租 赁 公司 Netflix TY 出 资 百 万 美元 举办 了 一 场 如 今 (至 少 在 数 
据 圈 内 ) 非常 知名 的 比赛 ， 以 角逐 出 能 最 好 地 预测 用 户 对 电影 的 评分 的 个 人 或 困 队 。Netflix 
在 保留 数据 集 上 定义 了 一 个 预测 效果 目标 ， 首 先 达到 该 目标 的 参赛 者 将 会 获得 奖励 。 参赛 



































































































































































































































注 7: Netflix 挑战 的 规则 包含 许多 技术 细节 ， 你 可 以 在 维基 百科 相关 网 页 中 阅读 。 
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者 可 以 利用 Netflix 提供 的 用 户 电影 评级 历史 数据 。 虽 然 获 胜 组 "构造 了 一 种 极其 复杂 的 技 
术 ， 但 他 们 的 成 功 主要 归功 于 其 解决 方案 的 两 个 方面 : 其 一 ， 使 用 了 集成 模型 ， 这 一 点 后 
面 12.5 市 将 进行 探讨 ， 其 二 ， 数 据 约 简 。 我 们 可 以 轻而易举 地 用 基本 概念 来 描述 他 们 主要 
使 用 数据 约 简 技 术 。 


这 个 待 解决 的 问题 实质 上 是 一 个 链 路 预测 问题 ， 要 预测 的 具体 内 容 是 用 户 和 电影 之 间 的 链 
路 强度 ， 该 强度 代表 用 户 有 多 喜欢 这 部 电影 。 我 们 刚刚 探讨 过 ， 这 个 问题 可 以 被 定位 为 预 
测 建 模 问 题 ， 那 么 ， 用 户 和 电影 之 间 关 系 的 特征 是 什么 呢 ? 


一 种 最 常用 方法 是 把 模型 建立 在 偏好 的 潜在 维度 的 基础 上 。Netflix 这 场 比赛 的 许多 获胜 者 
在 其 共同 撰写 的 论文 中 对 该 方法 进行 了 详细 描述 (Koren, Bell & Volinsky, 2009)。“ 潜 在 ” 
一 词 在 数据 科学 中 指 的 是 “相关 ， 但 在 数据 中 不 明显 ”。 第 10 章 探讨 的 主题 模型 ， 是 潜在 
模型 的 另 一 种 形式 ， 其 中 冲 在 信息 指 的 是 一 系列 文档 主题 。 在 这 里 ， 电 影 偏好 的 潜在 维度 
包括 了 可 能 的 特征 ， 比 如 是 严肃 的 还 是 逃避 现实 的 、 是 喜剧 片 还 是 剧情 片 是 否 面 向 儿童 ， 
以 及 性 别 取向 。 即 使 这 些 特征 没有 明显 出 现在 数据 中 ， 也 会 对 用 户 对 该 电影 的 喜好 造成 巨 
影响 。 由 于 潜在 维度 将 会 从 数据 中 浮现 ， 因 而 这 些 维度 可 能 还 包括 一 些 难 以 明确 定义 的 
内 容 ， 如 人 物 的 深度 或 情节 离奇 程度 ， 以 及 一 些 从 未 被 明确 表述 过 的 维度 。 


再 次 重申 ， 我 们 可 以 把 这 种 数据 科学 高 级 方法 认 作 基本 概念 的 组 合 。 用 潜在 维度 进行 电影 
推荐 的 思路 是 ， 把 每 部 电影 用 潜在 维度 表示 成 特征 向 量 ， 同 时 把 每 个 用 户 的 偏好 也 用 潜在 
维度 表示 成 特征 向 量 ， 然 后 计算 用 户 和 所 有 电影 的 相似 度 评 分 ， 并 据 此 向 用 户 推荐 电影 。 
因为 当 两 者 都 用 潜在 维度 表示 时 ， 最 符合 用 户 偏好 的 电影 就 是 与 用 户 最 相似 的 电影 。 

图 12-5 展示 了 一 个 根据 Netflix 电影 数据 挖掘 出 的 二 维 潜在 空间 ”， 以 及 在 这 个 空间 中 展示 的 
一 系列 电影 集合 。 要 解释 这 些 从 数据 中 挖掘 出 的 潜在 维度 ， 必 须 依赖 于 数据 科学 家 或 商业 
用 户 的 推断 ， 最 常用 的 方法 是 观察 这 些 维度 如 何 分 离 电 影 ， 然 后 把 领域 知识 应 用 其 中 。 
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注 8: 优胜 组 “Bellkors Pragmatic Chaos” BA 7 名 成 员 。 大 赛 的 历史 和 团队 的 发 展 历程 十 分 复杂 有 趣 ， 你 
可 访问 Netflix 大 奖 的 维基 百科 网 页 获取 更 多 信息 。 
注 9: 感谢 获奖 组 成 员 之 一 Chris Volinsky 的 帮助 。 
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图 12-5:“ 品 味 空间 ”中 用 Netflix 挑战 数据 中 挖掘 出 的 两 种 最 强 的 潜在 维度 定义 的 一 系列 电影 。 下 
文 包含 详细 探讨 。 根 据 其 观看 过 或 评 过 分 的 电影 ， 也 可 以 将 用 户 绘 进 这 个 空间 。 基 于 相似 
性 的 推荐 方法 会 像 候选 人 推荐 一 样 ， 把 与 用 户 距离 最 近 的 电影 推荐 给 用 户 


图 12-5 中 ， 横 轴 代 表 的 潜在 维度 似乎 能 把 电影 分 成 右 侧 的 剧情 片 和 左 侧 的 动作 片 ， 在 轴 
的 两 端 ， 最 右 侧 的 是 走 心 电 影 ， 比 如 《音乐 之 声 》《 月 色 撩 人 》 和 《 当 哈 利 遇 到 莎 莉 》， 而 
最 左 侧 的 电影 与 走 心 电影 相反 ( 走 胆 电影 ? )， 包 含 男人 和 青少年 的 刻板 形象 (BAE) 
(HBA). ABC 《德州 电 饮 杀 人 狂 》《 落 水 狗 为 、 速 度 〈《 速 度 与 激情 》) 和 打 怪 (《 范 
海 辛 》)。 纵 轴 代 表 的 潜在 维度 则 似乎 把 电影 分 成 了 知性 诉求 型 和 情感 诉求 型 ,一端 包 含 
《成 为 约翰 马尔 科 维 奇 》《 息 慢 拉 斯 维 加 斯 》 和 《安妮 堆 尔 》， 而 另 一 端 则 包含 《曼哈顿 
女 佣 》《 速 度 与 激情 》 和 《网 上 情缘 》。 你 可 以 不 同意 我 们 对 维度 的 解读 ， 因 为 这 些 解 读 完 
全 是 主观 的 。 但 有 件 事 是 清晰 的 :《 绿 野 仙 踪 》 在 潜在 维度 代表 的 儿 种 品味 中 做 到 了 不 正 
常 的 平衡 。 

为 使 用 该 潜在 空间 进行 电影 推荐 ， 我 们 必须 根据 用 户 租赁 过 或 评价 过 的 电影 ， 把 用 户 也 放 
进 这 个 空间 里 ， 这 样 一 来 ， 与 用 户 所 在 位 置 最 接近 的 电影 就 是 最 适合 推荐 给 该 用 户 的 电 
影 。 注 意 ， 在 进行 推荐 时 ， 必 须要 不 断 回忆 对 业务 的 理解 。 比 如 ， 不 同 的 电影 有 不 同 的 利 
润 空间 ， 而 我 们 可 能 希望 将 这 些 知 识 与 最 相似 电影 的 知识 结合 起 来 。 

不 过 ， 我 们 如 何在 数据 中 找到 正确 的 潜在 维度 呢 ? 应 该 应 用 第 4 章 介绍 的 基本 概念 ， 把 用 户 
和 电影 间 的 相似 度 计算 表示 成 数学 公式 的 形式 ， 并 用 字母 4 来 代表 仍然 未 知 的 潜在 维度 。 每 
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个 维度 都 应 表示 成 每 部 电影 和 每 个 用 户 的 一 系列 权重 (系数 )。 权 重 越 高 ， 说 明 该 维度 与 电 
影 或 用 户 的 联系 越 强 。 维 度 的 含义 应 完全 隐 含 在 电影 或 用 户 的 权重 中 。 比 如 ， 我 们 在 看 到 
某 些 维度 上 权重 很 高 的 电影 和 权重 很 低 的 电影 后 ， 可 能 会 认为 “高 分 电影 都 很 “离奇 ” 
这 种 情况 下 ， 我 们 就 可 以 把 维度 想 成 是 电影 的 情节 离奇 程度 ， 但 请 谨 记 ， 这 种 对 维度 的 解 
读 是 我 们 强加 上 的 ， 维 度 其 实 只 是 电影 根据 用 户 评分 在 数据 中 形成 的 某 种 聚 类 形式 。 

回想 一 下 ， 为 了 让 数值 函数 模型 拟 合 数据 ， 我 们 要 找到 数值 函数 的 一 系列 最 优 参数 。 最 
初 ， 维 度 d 只 是 数学 上 的 抽象 表示 。 仅 当 拟 合 数据 的 参数 选 好 后 ， 我 们 才能 定义 潜在 维度 
的 含义 (有 了 时 会 徒劳 无 功 )。 在 这 里 ， 函 数 的 参数 应 该 是 每 个 用 户 和 每 部 电影 在 潜在 维度 
上 的 (未知 ) 权重 。 直 观 地 说 ， 数 据 挖掘 需要 同时 判断 电影 情节 离奇 程度 和 该 观 影 者 有 多 
喜欢 情 市 离奇 的 电影 。 


现在 还 需要 一 个 目标 函数 来 判断 拟 合 优 度 。 我 们 根据 已 观察 到 的 电影 评分 数据 来 定义 用 于 
训练 的 目标 函数 ， 并 在 这 些 维度 上 找到 一 系列 描述 这 些 用 户 和 电影 的 权重 。 其 实 ， 许 多 目 
标 函 数 都 可 以 用 于 电影 推荐 问题 。 比 如 ， 我 们 可 以 选择 最 能 预测 训练 集中 观测 评分 的 权重 
(正则 化 ， 如 第 4 章 所 讨论 的 )。 或 者 ， 我 们 可 以 选择 最 能 解释 所 观测 的 评分 变动 的 维度 。 
这 种 方法 常 被 称 为 “矩阵 分 解 "， 感 兴趣 的 读者 不 妨 从 关于 Netflix 挑战 的 论文 (Koren, 
Bell & Volinsky, 2009) 开始 读 起 。 


结果 是 ， 在 简化 了 的 维度 集 上 ， 我 们 对 每 部 电影 都 做 了 表示 (可 能 是 情节 离奇 程度 、 是 否 
为 一 部 “催泪 电影 ”或 “针对 男性 的 电影 ”等 ) 这 些 维度 是 根据 训练 集 找 出 的 d 个 最 佳 潜 
在 维度 。 现 在 可 以 回头 看 看 图 12-5 和 相关 讨论 ， 其 中 包含 两 个 最 能 拟 合 数 据 的 潜在 维度 ， 
也 就 是 用 d = 2 的 二 维 变量 拟 合 数 据 选 出 的 最 佳 维度 。 


12.5 偏差、 方差 和 集成 方法 


Netflix 大 赛 的 优胜 者 还 使 用 了 另 一 种 常用 的 数据 科学 技术 : 构造 很 多 推荐 模型 ， 并 把 它 
们 组 合成 一 个 “超级 模型 "*。 用 数据 挖掘 术 语 来 说 ， 即 他 们 构造 了 一 个 集成 模型 。 据 观察 ， 
在 很 多 情况 下 ， 集 成 模型 可 以 提高 模型 的 泛 化 能 力 。 这 不 仅 适用 于 推荐 问题 ， 还 广泛 适用 
于 分 类 、 回 归 、 类 概率 估计 等 问题 。 


为 什么 模型 的 组 合 往往 优 于 单个 模型 呢 ?” 如 果 我 们 把 每 个 模型 当 作 目标 预测 任务 中 的 一 种 
“专家 ”， 那 么 模型 的 组 合 就 是 一 群 专家 。 与 其 只 咨询 一 位 专家 ， 不 如 请 教 一 群 专家 然后 将 
他 们 的 建议 进行 组 合 。 比 如 ， 我 们 可 以 让 他 们 对 分 类 结果 投票 ， 或 对 他 们 的 数值 型 预测 取 
平均 。 注 意 ， 这 是 第 6 章 介绍 的 将 相似 性 计算 转化 成 “最 近邻 ”预测 模型 方法 的 拓展 。 在 
进行 最 近邻 预测 时 ， 我 们 要 找到 一 组 相似 示例 ( 即 一 些 非 常 初级 的 专家 )， 然 后 根据 一 
些 函数 来 组 合 它 们 的 预测 结果 。 因 此 最 近邻 模型 就 是 一 种 简单 的 集成 模型 。 通 常 ， 集 成 
模型 会 把 更 复杂 的 预测 模型 作为 自己 的 “专家 ”。 比 如 ， 它 可 能 会 构造 一 组 分 类 树 ， 然 后 
把 预测 值 的 均值 (或 加 权 均 值 ) 作为 结果 。 

集成 模型 在 什么 情况 下 会 提高 模型 效果 呢 ? 当然 ， 如 果 每 个 专家 知道 的 事情 完全 一 样 ， 那 
么 他 们 就 会 给 出 相同 的 预测 ， 这 会 使 集成 模型 的 优势 无 法 体现 ， 而 如 果 每 个 专家 理解 问题 
的 角度 稍 有 不 同 ， 那 么 他 们 就 会 给 出 互补 的 预测 ， 因 而 整个 专家 组 的 预测 会 比 个 人 的 预测 
信息 量 更 大 。 从 技术 上 说 ， 我 们 希望 专家 们 产生 不 同 种 类 的 误差 一 一 这 些 误差 越 不 相关 越 
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好 ， 最 好 能 完全 独立 。 在 整合 所 有 预测 时 ， 这 些 误差 就 能 互相 抵消 ， 使 预测 真正 互 宰 ， 从 
而 使 集成 模型 优 于 任意 一 个 独立 的 模型 。 








集成 方法 不 但 历史 悠久 ， 而 且 是 数据 科学 研究 的 一 个 活跃 领域 。 关 于 这 方面 
的 文章 还 有 很 多 ， 感 兴趣 的 读者 不 妨 从 Dietterich (2000) 的 评论 文章 读 起 。 




















一 种 可 以 帮助 我 们 理解 为 什么 集成 会 有 效 的 方法 ， 是 首先 理解 模型 的 误差 可 以 由 以 下 三 个 
因素 描述 : 

(1) 内 在 随机 性 ; 

(2) 偏差 ， 

(3) 方 差 。 


第 一 条 ， 内 在 随机 性 ， 仅 包括 预测 非 “ 确 定性 ”的 情况 〈 即 我 们 每 当 看 到 同一 组 特征 时 ， 
不 会 总 是 得 到 具有 相同 值 的 目标 变量 )。 举 个 例子 ， 特 征 相同 的 客户 可 能 不 会 一 直 购 买 产 
品 或 一 直 不 购买 产品 ， 根 据 现 有 的 信息 ， 预 测 可 能 仅 是 固有 的 概率 。 因 此 ， 预 测 中 观察 到 
的 一 部 分 “误差 ”仅仅 是 问题 的 固有 概率 性 质 导致 的 。 我 们 可 以 讨论 一 个 特定 的 数据 生成 
过 程 是 真正 具有 概率 性 还 是 我 们 根本 没有 看 到 所 有 必要 信息 。 但 这 种 争论 主要 是 学 术 层面 
AS”, 因为 基于 现 有 的 数据 , 这 个 过 程 可 能 本 质 上 就 是 概率 性 的 。 进 一 步 假 设 我 们 已 经 尽 
可 能 降低 了 随机 性 ， 并 且 针 对 这 个 问题 我 们 可 以 实现 理论 上 的 某 个 最 大 准确 度 。 这 种 准确 
度 就 叫 作 贝 叶 斯 率 ， 它 通常 是 未 知 的 。 在 本 市 的 剩余 篇 幅 中 ， 我 们 将 认为 贝 叶 斯 率 是 “ 完 
美 ”的 准确 率 。 


除了 内 在 随机 性 ， 模 型 还 有 两 个 产生 误差 的 原因 。 首 先 ， 建 模 过 程 可 能 是 “有 偏差 的 "。 你 
可 以 借助 学 习 曲线 (回忆 5.8 节 ) 来 理解 这 个 概念 。 具 体 地 说 ， 如 果 不 论 用 多 少 训练 数据 来 
训练 模型 ， 学 习 曲 线 也 永远 达 不 到 完美 准确 率 ( 贝 叶 斯 率 )， 那 么 建 模 过 程 就 是 有 偏差 的 。 
比如 ， 我 们 学 习 得 到 了 一 个 用 于 预测 某 广告 活动 的 响应 情况 的 (线性 ) 逻辑 回归 模型 。 如 
果实 际 的 响应 情况 真 的 比 模型 所 能 表现 的 更 复杂 ， 那 么 该 模型 将 永远 无 法 达到 完美 准确 率 。 


其 次 我 们 没有 无 限 多 的 训练 数据 ， 只 有 一 些 有 限 的 样本 。 建 模 过 程 通常 会 由 于 样本 的 细微 
差别 而 得 出 不 同 模 型 ， 而 这 些 不 同 的 模型 的 准确 率 也 不 相同 。 至 于 不 同 训练 集 (假设 规模 
相当 ) 导致 的 模型 准确 率 的 差别 究竟 有 多 少 ， 要 依 建 模 过 程 的 方差 而 定 。 其 他 条 件 不 变 
时 ， 方 差 更 大 的 建 模 过 程 产生 的 模型 误差 可 能 更 大 。 


你 现在 可 能 明白 了 ， 我 们 希望 建 模 过 程 既 没 有 偏差 也 没有 方差 ， 或 至 少 偏差 和 方差 都 较 
小 。 但 遗憾 (BAW) 的 是 ， 这 两 者 之 间 一 般 需要 权衡 。 方 差 小 的 模型 通常 偏差 较 大 ， 反 
之 亦 然 。 举 一 个 非常 简单 的 例子 ， 我 们 想 在 忽略 所 有 客户 特征 的 情况 下 ， 简 单 估计 广告 活 
动 的 响应 情况 并 简单 预测 (平均) 购买 率 。 但 是 ， 如 果 客 户 的 购买 倾向 存在 差异 ， 就 无 法 
得 到 完美 准确 率 的 模型 。 另 一 方面 ， 我 们 也 可 能 根据 一 千 个 详细 变量 对 客户 进行 建 模 。 我 




























































































iÈ 10: 这 一 争论 有 时 也 会 取得 成 果 ， 比 如 ， 通 过 考虑 是 否 有 所 有 必要 信息 ， 可 能 会 发 现 我 们 需要 获取 一 个 新 
属性 ， 从 而 提升 预测 能 力 。 
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们 现在 可 能 有 机 会 获得 更 好 的 准确 性 ， 但 我 们 也 可 以 预期 ， 基 于 存在 略微 差异 的 训练 集 所 
获得 的 模型 会 有 更 大 的 差异 。 因 此 ， 我 们 不 一 定期 望 一 千 个 变量 的 模型 更 好 。 我 们 并 不 能 
确切 地 知道 是 哪个 变量 的 误差 (偏差 或 方差 ) 占 了 主导 地 位 。 

你 可 能 会 想 :“ 当 然 了 ， 我 们 在 第 5 章 学 过 ， 变 量 过 多 的 模型 会 出 现 过 拟 合 。 我 们 应 该 在 
一 定 程度 上 对 模型 进行 复杂 度 控 制 ， 比 如 选择 一 部 分 变量 来 建 模 。” 这 完全 没 问题 ,复杂 
度 更 高 的 模型 偏差 会 更 小 ， 但 方差 会 更 大 。 复 杂 度 控制 通常 试图 权衡 偏差 和 方差 (一 般 是 
未 知 的 )， 以 找到 使 两 者 产生 的 误差 组 合 最 小 的 “甜蜜 点 ”"。 因 此 ， 我 们 可 以 对 一 千 个 变量 
的 问题 应 用 变量 选择 。 如 果 购 买 率 的 确 因 客 户 而 异 ， 而 我 们 又 有 足够 的 训练 数据 ， 那 么 变 
量 选择 很 可 能 不 会 把 所 有 变量 都 删除 ， 否 则 我 们 就 只 能 对 总 体 取 平均 了 。 我 们 希望 能 用 一 
部 分 变量 来 建 模 ， 从 而 根据 手头 的 训练 数据 ， 尽 可 能 精确 地 进行 预测 。 

技术 上 ， 本 布 讨论 的 准确 率 是 模型 准确 率 的 期 望 值 。 我 们 没有 指明 这 一 点 ， 
否则 讨论 就 会 在 技术 上 变 得 复杂 。 对 偏差 、 方 差 和 两 者 之 间 权 衡 感 兴趣 的 读 
者 ， 不妨 从 Friedman (1997) 的 一 篇 技术 性 强 但 非常 易 读 的 论文 读 起 。 



































现在 我 们 知道 了 集成 技术 为 什么 会 起 作用 。 如 果 我 们 的 建 模 方法 方差 极 高 ， 那 么 对 多 次 预 
测 取 平 均 就 能 降低 预测 的 方差 。 确 实 ， 集 成 方法 会 大 幅度 提升 高 方差 方法 的 预测 能 力 ， 比 
如 在 可 能 会 出 现 严重 的 过 拟 合 现 象 时 (Perlich, Provost & Simonoff, 2003 ) 。 集 成 方法 通常 
用 于 树 型 归纳 ， 因 为 分 类 树 和 回归 树 往往 方差 较 高 。 在 集成 方法 领域 中 ， 你 可 能 还 会 听 
到 随机 森林 、 套 袋 法 和 自助 法 ， 这 些 都 是 用 于 树 形 模型 的 常见 集成 方法 (后 两 者 更 通用 )。 
读者 可 以 访问 维 基 百 科 来 了 解 有 关 它 们 的 更 多 信息 。 


12.6 ”数据 驱动 的 因果 解释 和 一 个 病毒 式 营销 示例 


本 书 (第 2 章 和 第 11 章 ) 提 及 的 一 个 重要 主题 是 数据 的 因果 解释 。 预 测 建 模 对 很 多 商业 
问题 来 说 都 非常 有 用 ,但 目前 为 止 本 书 所 讨论 的 预测 建 模 都 基于 相关 关系 ， 而 不 是 因果 关 
系 。 通 常 我 们 想 更 深入 地 研究 某 现象 ， 以 了 解 是 什么 影响 了 什么 。 这 样 做 的 原因 可 能 是 为 
了 更 了 解 我 们 的 业务 ， 也 可 能 是 希望 用 数据 改进 决策 ， 以 取得 理想 结果 。 

请 考虑 一 个 详细 示例 。 最 近 “ 病 毒 式 ”营销 取得 了 广泛 关注 。 对 “病毒 式 ” 营 销 的 一 种 
常见 解释 是 消费 者 可 以 互相 影响 着 购买 产品 ， 因 此 营销 者 可 以 通过 对 一 些 消费 者 “播种 ” 
(比如 向 他 们 提供 免费 产品 ) 而 大 量 获 益 。 这 些 消费 者 就 是 “影响 者 "， 他 们 会 提高 所 认识 
的 人 购买 产品 的 可 能 性 。 病 毒 式 营 销 的 目标 是 构造 像 传 染病 一 样 迅 速 流行 的 活动 ， 但 这 种 
流行 背后 的 关键 假设 是 消费 者 之 间 会 互相 影响 。 那 么 这 种 影响 有 多 大 呢 ? 数据 科学 家 们 会 
观测 消费 者 获得 产品 后 ， 其 社交 网 络 中 的 邻居 购买 该 产品 的 可 能 性 是 否 确实 提升 ， 并 根据 
观测 数据 来 度量 这 种 影响 。 


然而 ， 对 数据 的 简单 分 析 可 能 具有 严重 的 误导 性 。 这 基于 一 个 重要 的 社会 学 因素 
(McPherson, Smith-Lovin & Cook, 2001) : 在 社交 网 络 中 ， 人 们 倾向 于 结识 与 其 相似 的 人 。 
那么 这 个 因素 为 什么 如 此 重要 ? 


因为 这 表示 社交 网 络 中 的 邻居 可 能 会 有 相同 的 产品 偏好 ， 而 由 此 我 们 可 以 预期 ， 即 使 消费 
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者 之 间 不 存在 任何 因果 关系 影响 ， 选 择 或 喜欢 这 些 产品 的 人 的 邻居 ， 也 会 选择 或 喜欢 该 产 
品 ! 的 确 ,《 美 国 国 家 科学 院 院 刊 》 中 写 到 ， 根 据 对 因果 分 析 的 谨慎 应 用 ， 传 统 的 估计 方 








式 将 病毒 式 营销 的 影响 至 少 高 佑 了 700% ! 


谨慎 地 对 数据 进行 因果 解释 的 方法 有 很 多 ,而 且 都 可 以 用 一 个 通用 的 数据 科学 框架 来 理 
解 。 本 书 讨论 这 一 点 的 目的 在 于 ， 理 解 这 些 复 杂 的 技术 需要 先 掌握 目前 介绍 的 基本 原则 。 
谨慎 的 因果 数据 分 析 要 求 理解 获取 数据 所 做 的 投资 ,这 些 数据 包括 相似 性 度量 、 期 望 值 计 


























算 、 寻 找 相关 关系 和 富 信息 变量 、 用 公式 拟 合 数据 等 。 















































第 11 章 对 这 种 更 复杂 的 因果 分 析 进 行 了 一 些 介绍 。 当 时 我 们 回顾 了 电信 公司 的 用 户 流失 








问题 ， 并 提出 了 “是 否 应 该 把 最 容易 受到 特殊 优惠 影响 的 用 户 作 为 目标 ”的 问题 。 该 示例 
。 在 因果 关系 理解 中 ， 使 用 相 
似 性 匹配 (第 6 章 ) 模拟 得 到 或 未 得 到 “处 理 ”( 如 促使 留 下 的 激励 ) 的 “ 反 事 实情 况 ” 
的 技术 有 很 多 。 其 他 因果 分 析 方 法 也 能 用 数值 函数 拟 合 数 据 和 解读 函数 的 系数 。" 


科学 。 因 果 数 据 分 析 只 是 一 个 











说 明了 期 望 值 框架 所 起 的 作用 ， 同 时 也 介绍 了 许多 其 他 概念 





























重点 是 ， 我 们 无 法 在 不 理解 基本 原则 的 前 提 下 理解 因果 数据 
例子 ， 你 还 会 在 其 他 更 复杂 的 方法 中 遇 到 类 似 技术 。 


12.7 “小 结 




















尽管 数据 科学 中 有 许多 特殊 技术 ， 然 而 为 了 透彻 地 了 解 该 领域 ， 我 们 需要 先 抛 开 这 些 技 
术 ， 转 而 考虑 应 用 这 些 技术 的 问题 。 本 书 关注 的 是 一 些 最 常见 的 问题 《寻找 相关 关系 和 富 
信息 变量 、 寻 找 相似 数据 项 、 分 类 、 概 率 估计 、 回 归 和 聚 类 等 )， 并 表明 了 数据 科学 的 概 
念 能 为 理解 问题 和 其 解决 方法 提供 坚实 基础 。 本 童 展示 了 另外 一 些 重要 的 数据 科学 任务 和 
技术 ， 并 说 明 通过 基本 概念 提供 的 基础 ， 这 两 者 也 可 以 得 到 很 好 的 理解 。 


本 章 具体 讨论 了 : 寻找 数据 项 之 间 有 趣 的 共 现 关系 或 关联 关系 ， 比 如 所 购 商品 ， 对 典型 行 
为 进行 用 户 画 像 ， 比 如 信用 卡 使 用 习惯 或 客户 等 待 时 间 ， 预 测 数据 项 之 间 的 链 路 ， 比 如 人 

































































与 人 之 间 的 淤 在 社会 关系 ;， 约 简 数 据 ， 使 其 更 加 容易 管理 或 暴露 隐藏 信息 ， 比 如 潜在 电影 
偏好 ， 在 模型 包含 不 同 专业 知识 的 前 提 下 对 模型 进行 组 合 ， 比 如 改善 电影 推荐 的 效果 ， 从 
数据 中 提取 因果 结论 ， 比 如 判断 客户 购买 相同 产品 (在 多 大 程度 上 ) 是 因为 其 认识 的 人 











对 他 们 的 影响 (病毒 式 营销 的 必要 条 件 )， 还 是 因为 熟人 的 品味 相似 H 











象 ) 。 扎 实 掌握 这 些 基 本 原则 能 帮 你 理解 更 复杂 的 技术 或 技术 组 合 。 

















[会 学 中 的 常见 现 


注 11: 虽然 结束 因果 关系 解读 的 条 件 已 经 超出 了 本 书 范围 ， 但 是 如 果 有 人 给 你 看 一 个 附 有 方程 参数 的 因果 















































解释 ， 直 到 答案 让 你 请 意 为 止 。 对 这 样 的 分 析 而 言 ， 让 决策 者 到 








E 解 是 放 在 第 一 位 的 ， 
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这 样 的 结果 和 弄 明白 。 






































关系 解释 回归 方程 ， 那 么 你 可 以 询问 这 些 系 数 的 含义 究竟 是 什么 、 它 们 又 为 何 可 以 对 方程 进行 因果 





此 你 必须 把 
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BIBS 


数据 科学 和 经 营 战略 





基本 概念 英 定 数据 驱动 商业 成 功 的 原则 ; 通过 数据 科学 取得 和 维持 竞争 优势 ; 
对 数据 科学 能 力 进 行 精心 管理 的 重要 性 


本 章 将 讨论 数据 科学 和 经 营 战略 的 相互 作用 ， 包 括 如 何 用 数据 科学 选择 所 要 解决 的 问题 的 
高 层 视角 。 可 以 看 出 ， 数 据 科学 的 基本 概念 让 我 们 能 够 清晰 地 考虑 战略 问题 。 同 时 我 们 也 
可 以 证 明 ， 这 些 概念 总 的 来 说 有 助 于 考虑 商业 上 的 策略 问题 ， 如 评估 来 自 顾 问 或 内 部 数据 
科学 团队 的 数据 科学 项 目 提案 。 本 章 还 将 详细 探讨 数据 科学 能 力 的 管理 。 


我 们 越 来 越 多 地 看 到 关于 基于 数据 科学 解决 商业 问题 的 新 闻 报 道 。 如 第 1 章 所 述 ， 一 系列 
因素 使 得 与 之 前 相 比 ， 当 代 企 业 所 掌握 的 数据 体 量 信人 。 但 仅仅 拥有 数据 ， 并 不 能 保证 数 
据 驱 动 决策 的 成 功 。 企 业 如 何 最 大 程度 地 利用 数据 财富 ? 答案 自然 多 种 多 样 ， 但 重要 因素 
有 两 个 : 首先 ， 企 业 管 理 层 必须 具有 数据 分 析 思 维 ， 其 次 ， 企 业 管 理 层 必须 创造 出 一 种 有 
利于 数据 科学 和 数据 科学 家 健康 发 展 的 文化 。 


13.1 数据 分 析 式 思维 ， 终 极 版 


虽然 第 一 条 准则 并 不 意味 着 管理 层 必 须 是 数据 科学 家 ， 但 要 求 他 们 必须 充分 理解 基本 原则 ， 
从 而 预见 和 /或 领会 数据 科学 所 带 来 的 机 遇 ， 为 数据 科学 团队 提供 合适 的 资源 ， 并 乐于 在 
数据 和 实验 方面 投入 。 此 外 ， 除 非 企业 管理 层 中 有 一 位 经 验 丰富 且 注 重 实干 的 数据 科学 家 ， 
否则 管理 层 必 须 仔 细 地 引导 数据 科学 团队 ， 才 能 保证 团队 不 会 偏离 通 往 有 效 的 最 终 商 业 解 
决 方案 的 路 线 。 如 果 管 理 者 不 理解 这 些 原则 的 话 ， 这 一 点 将 非常 困难 。 管 理 者 还 应 具备 向 
数据 科学 家 提出 探索 性 问题 的 能 力 ， 因 为 后 者 往往 会 困 在 技术 性 细节 中 。 我 们 必须 承认 ， 
团队 中 的 每 个 角色 各 有 长 处 和 短处 ， 而 由 于 数据 科学 项 目 涉及 一 家 公司 的 众多 方面 ， 因 而 
一 个 多 元 化 团队 是 必 不 可 少 的 。 正 如 我 们 不 能 指望 管理 者 一 定 有 很 深 的 数据 科学 专业 知识 
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一 样 ， 我 们 也 不 能 指望 数据 科学 家 一 定 具备 很 深 的 商业 解决 方案 专业 知识 。 虽 然 如 此 ， 但 
一 个 高 效 的 数据 科学 团队 一 定 是 双方 的 合作 的 产物 ， 而 且 任 意 一 方 都 必须 对 对 方 领域 的 基 
本 内 容 有 所 了 解 。 管 理 一 个 完全 不 懂 基 本 商业 概念 的 数据 科学 团队 纯 属 徒劳 ， 同 样 ， 数 据 
科学 家 在 完全 不 懂 数 据 科学 基本 原则 的 管理 层 手下 干 活 也 会 非常 痛苦 ， 甚 至 毫 无 成 效 。 


举 个 并 不 罕见 的 例子 ， 数 据 科学 家 经 常 遇 到 一 些 仅 能 (有 时 很 模糊 地 ) 看 到 预测 建 模 的 洪 
在 效益 ， 却 不 能 意识 到 要 对 合适 的 训练 数据 或 评估 程序 进行 投资 的 管理 人 员 。 在 他 们 手下 
干 活 是 件 苦 差 。 这 种 企业 或 许 能 “成 功 ”部 署 一 个 准确 的 预测 模型 ， 且 能 形成 可 行 的 产品 
或 服务 ， 但 注定 无 法 超过 愿意 通过 投资 提升 数 据 科 学 水 平 的 竞争 对 手 。 

夯实 数据 科学 基础 有 着 更 深远 的 战略 内 洱 。 虽 然 没 有 进行 系统 的 科学 研究 ， 但 丰富 的 经 验 
告诉 我 们 ， 随 着 执行 者 、 管 理 者 和 投资 者 越 来 越 多 地 接触 数据 科学 项 目 ， 他 们 会 看 到 越 来 
越 多 的 机 会 。 这 样 的 极端 例子 包括 谷歌 和 亚马逊 (网 页 搜索 、 亚 马 逊 的 产品 推荐 和 其 他 服 
务 背后 都 有 着 大 量 的 数据 科学 内 容 )。 两 家 公司 最 终 都 开发 了 后 续 产 品 ， 为 其 他 企业 提供 
了 与 大 数据 和 数据 科学 相关 的 服务 。 许 多 〈 也 许 是 大 多 数 ) 面向 数据 科学 的 创业 企业 都 使 
用 亚马逊 的 云 存储 和 云 处 理 服务 来 完成 某 些 任务 。 谷 歌 的 “预测 API” 的 复杂 度 和 实用 性 
也 在 不 断 提高 (尽管 我 们 不 清楚 它 的 普及 程度 )。 


虽然 以 上 两 个 是 极端 案例 ， 但 其 基本 模式 几乎 存在 于 每 家 拥有 大 量 数据 的 企业 中 。 一 旦 培 
养 出 针对 一 种 应 用 场景 的 数据 科学 能 力 ， 该 能 力 在 整个 业务 中 的 其 他 应 用 场景 也 就 明晰 了 。 
Louis Pasteur 曾 说 过 一 句 著 名 的 话 :“ 机 会 只 着 顾 有 准备 之 人 。” 现 代 创造 性 思维 所 关注 的 是 
新 的 思维 方式 和 对 特定 问题 “饱和 ” 式 思索 这 两 者 的 并 置 。 通 过 (以 理论 或 实 操 的 方式 ) 研 
究 应 用 数据 科学 的 案例 ， 我 们 可 以 做 好 准备 去 迎接 受益 于 数据 科学 的 新 问题 的 连接 和 机 遇 。 


举 个 例子 ，20 世纪 80 ERR 90 年 代 初 ， 一 家 最 大 的 电信 公司 用 本 书 中 描述 的 技术 ， 将 预 
测 建 模 应 用 到 降低 维修 电话 网 络 的 费用 和 语音 辨识 系统 的 设计 中 。 随 着 对 用 数据 科学 解决 
商业 问题 的 能 力 的 理解 加 深 ， 该 公司 陆续 将 相似 理念 应 用 到 决策 中 ， 比 如 将 大 量 资本 投资 
用 于 改善 网 络 ， 以 及 减少 其 新 兴 无 线 业 务 中 的 欺诈 现象 。 情 况 仍 在 继续 发 展 ， 用 于 降低 其 
诈 行 为 的 数据 科学 项 目 发 现 ， 如 果 在 欺诈 预测 模型 中 加 入 社交 网 络 联系 〈 依 据 相互 通话 数 
据 ) 的 特征 ， 就 能 大 幅 提 高 模型 反 欺诈 的 能 力 。21 世纪 初 ， 该 电信 公司 率先 发 明了 用 社交 
联系 提高 营销 效率 的 方法 一 一 这 种 新 方法 与 基于 社会 人 口 、 地 理 和 先期 购买 数据 的 传统 定 
向 市 场 营 销 相 比 ， 效 果 显 著 改 善 。 然 后 ， 电 信 业 开始 把 这 些 社交 特征 纳入 流失 预测 模型 ， 
其 结果 同样 令 人 满意 。 这 样 的 思路 扩散 到 了 线 上 广告 业 ，( 在 Facebook， 以 及 其 他 线 上 广 
告 生态 系统 中 的 企业 中 ) 掀起 了 一 阵 基 于 线 上 社会 关系 数据 的 线 上 广告 发 展 的 热 淹 。 


这 轮 发 展 的 驱动 力 既 来 自 于 经 验 丰富 且 能 着 眼 于 商业 问题 的 数据 科学 家 ， 也 来 自 于 精通 数 
据 科 学 的 管理 者 和 企业 家 ， 因 为 他 们 在 学 术 界 和 商业 界 的 文献 中 看 到 了 数据 科学 发 展 所 带 
来 的 机 会 。 


米 1249078 = 、 
13.2 用 数据 科学 取得 竞争 优势 
企业 越 来 越 多 地 开始 考虑 是 否 能 从 数据 和 /或 数据 科学 能 力 中 取得 竞争 优势 。 因 为 这 是 一 
种 重要 的 战略 思维 ， 不 能 浅 尝 辑 止 ， 所 以 我 们 将 花 些 时 间 深 入 探讨 。 














































































































= 












































































































































238 | #132 


数据 和 数据 科学 能 力 是 (互补 的 ) 战略 资产 ， 而 企业 在 何 种 情况 下 能 用 这 样 的 资产 取得 竞 
争 优势 呢 ” 首 先 ， 这 项 资产 必须 对 企业 有 价值 。 这 一 条 似乎 显而易见 ， 但 请 注意 ， 资 产 对 
企业 是 否 有 价值 ， 取 决 于 该 企业 做 的 其 他 战略 决策 。 跳 出 数据 科学 的 语 境 ， 在 20 世纪 90 
年 代 的 个 人 计算 机 行业 ， 戴 尔 在 与 行业 龙头 Compag 的 竞争 中 取得 了 极 大 的 优势 ， 这 要 归功 
于 戴尔 使 用 了 基于 网 络 的 系统 ， 让 客户 能 根据 个 人 需求 和 喜好 配置 计算 机 。 而 Compaq 却 无 
法 从 该 系统 中 获取 同样 的 价值 。 一 个 主要 原因 是 戴尔 和 Compaq 实施 了 不 同 的 战略 : 戴尔 是 
一 家 直接 向 客户 交付 的 计算 机 零售 商 ， 通 过 目录 进行 销售 ， 而 基于 网 络 的 系统 在 这 样 的 战略 
下 非常 有 价值 ，Compaq 则 主要 通过 零售 店 销售 计算 机 ， 因 此 基于 网 络 的 系统 无 法 发 挥 其 作 
用 。 而 当 Compa 试 着 复制 戴尔 基于 网 络 的 战略 时 ， 却 受到 了 零售 商 们 的 强烈 抵制 。 结 论 
是 ， 新 资产 (基于 网 络 的 系统 ) 的 价值 取决 于 公司 的 其 他 战略 决策 。 


这 个 示例 说 明 ， 在 业务 理解 环节 ， 我 们 应 仔细 考虑 数据 和 数据 科学 如 何在 商业 战略 背景 下 
产生 价值 ， 以 及 其 在 竞争 对 手 的 战略 背景 下 是 否 效 果 不 变 。 使 用 这 种 方法 ， 我 们 就 可 以 识 
别 潜在 的 机 会 和 威胁 。 数 据 科学 界 中 ， 与 戴尔 和 Compaq 的 示例 类 似 的 是 亚马逊 和 Borders 
的 竞争 。 亚 马 进 很 早 就 能 根据 用 户 的 图 书 购买 数据 ， 向 线 上 购物 用 户 进行 个 性 化 推荐 。 虽 
然 Borders 也 能 够 利用 其 用 户 的 图 书 购 买 数据 ， 但 实体 零售 战略 却 让 其 无 法 同样 顺畅 地 提 
供 基于 数据 科学 的 推荐 信息 。 


因此 ， 竞 争 优 势 的 先决 条 件 是 ， 资 产 必 须 在 我 们 的 战略 条 件 下 有 价值 。 而 第 二 条 准则 是 : 
为 获取 竞争 优势 ， 我 们 的 竞争 者 要 么 不 能 拥有 某 种 资产 ， 要 么 没有 从 该 资产 中 获取 同样 价 
值 的 能 力 。 我 们 应 同时 考虑 (多 种 ) 数据 资产 和 数据 科学 能 力 。 我 们 的 数据 资产 是 否 独 一 
无 二 ? 如 果 不 是 ， 那 我 们 是 否 有 能 比 竞 争 对 手 更 匹配 资产 的 战略 呢 ? 或 者 我 们 是 否 能 凭借 
更 好 的 数据 科学 能 力 ， 比 对 手 更 好 地 利用 数据 资产 ? 


考虑 如 何 通 过 数据 和 数据 科学 取得 竞争 优势 ， 反 过 来 也 是 考虑 我 们 是 否 在 此 方面 处 于 竞争 
劣势 。 针 对 上 一 个 问题 ， 可 能 竞争 者 的 答案 是 肯定 的 ， 而 我 们 的 却 不 是 。 下 文 将 假设 我 们 
在 寻求 取得 竞争 优势 ， 不 过 下 文 观点 在 假设 相反 的 时 候 ， 即 我 们 希望 与 某 善 用 数据 的 竞争 
对 手 平起平坐 时 ， 也 对 称 地 适用 。 


13.3 用 数据 科学 保持 竞争 优势 


下 一 个 问题 是 ， 如 采取 得 了 竞争 优势 ， 我 们 能 否 继续 保持 它 ? 如 果 对 手 能 轻而易举 地 复制 
我 们 的 资产 和 能 力 ， 那 么 我 们 的 优势 将 很 快 消失 。 这 个 问题 尤为 关键 : 如 果 竞 争 对 手 有 比 
我 们 更 丰富 的 资源 ， 那 么 他 们 只 要 采取 我 们 的 战略 ， 就 能 很 快 超过 我 们 。 

一 个 基于 数据 科学 的 竞争 战略 是 ， 在 竞争 中 始终 领先 一 步 ， 持 续 地 投资 新 的 数据 资产 、 开 发 
新 技术 和 能 力 。 虽 然 这 种 战略 也 许 能 让 我 们 的 业务 令 人 兴奋 地 迅速 增长 ， 但 一 般 很 少 有 企业 
能 做 到 这 一 点 。 比 如 ， 你 必须 笃定 自己 手下 的 数据 科学 团队 是 最 优秀 的 ， 因 为 数据 科学 家 的 
效率 也 存在 较 大 差异 ， 最 好 的 会 比 一 般 水 平 的 更 有 天 赋 。 如 果 你 的 团队 很 优秀 ， 你 就 会 愿意 
相信 自己 处 于 领先 地 位 。 我 们 将 在 下 文中 更 详细 地 探讨 数据 科学 团队 。 


另 一 种 在 竞争 中 领先 的 方式 ， 是 通过 使 竞争 者 无 法 复制 己方 的 数据 资产 或 数据 科学 能 
(或 复制 成 本 高 昂 ) 而 保持 竞争 优势 。 通 过 这 种 方法 保持 优势 的 途径 有 很 多 。 
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13.3.1 SAARD ERA 

历史 环境 可 能 会 使 我 们 的 公司 处 于 优势 地 位 ， 而 且 竞 争 者 取得 同样 地 位 的 成 本 会 非常 兄 
贵 。 这 一 次 ， 我 们 依旧 可 以 把 亚马逊 作为 一 个 出 色 的 范例 。 在 20 世纪 90 年 代 的 “互联 网 
热潮 ”中 ， 亚 马 进 以 低 于 成 本 的 价格 售 书 ， 而 投资 者 持续 回报 公司 。 这 使 得 亚马逊 累积 
体 量 庞大 的 数据 资产 (比如 用 户 购买 偏好 和 线 上 产品 评论 的 海量 数据 )， 从 而 开发 出 基于 
数据 的 有 价值 的 产品 〈 比 如 推荐 和 产品 评分 )。 这 些 历 史 情 境 已 经 不 再 ， 即 使 竞争 对 手 想 
通过 连年 低 价 售 书 来 复制 亚马逊 的 数据 资产 ， 投 资 者 也 不 可 能 为 他 们 提供 同样 水 平 的 支持 
了 〈 更 不 要 说 亚马逊 如 今 已 经 不 仅仅 出 售 图 书 了 ) 。 

本 例 同 时 也 说 明 ， 数 据 产品 本 身 就 可 以 提高 竞争 者 复制 数据 资产 的 成 本 。 消 费 者 们 重视 亚 
马 进 提供 的 数据 驱动 推荐 和 产品 评价 /评分 ， 这 就 产生 了 转换 成 本 。 竞 争 者 若 想 吸引 亚 马 
还 的 顾客 来 自己 店 里 购物 ， 就 必须 向 他 们 提供 额外 价值 ， 即 要 么 降低 价格 ,要么 提供 亚 马 
进 所 不 能 提供 的 其 他 有 价值 的 产品 或 服务 。 因 此 ， 当 数据 采集 直接 与 数据 产生 的 价值 挂钩 
时 ， 甚 所 产生 的 良性 循环 就 会 让 竞争 者 进入 一 个 进退 维 谷 的 局 面 : 他 们 既 需 要 客户 来 获取 
必要 的 数据 ， 又 需要 数据 来 提供 等 价 服务 ， 吸 引 客户 。 


企业 家 和 投资 者 也 可 以 换个 角度 思考 这 个 战略 问题 。 什 么 样 的 历史 情境 虽然 现在 存在 但 不 
会 永远 持续 ? 什么 又 能 让 我 们 取得 或 构建 比 未 来 可 能 成 本 更 低 的 数据 资产 呢 ? 或 者 ， 什 么 
能 使 我 现在 打造 一 个 未 来 会 郧 贵 得 多 〈 或 不 可 能 成 功 ) 的 数据 科学 团队 呢 ? 


13.3.2 ”独一无二 的 知识 产权 


我 们 的 企业 可 能 拥有 独一无二 的 智力 成 果 。 数 据 科 学 中 的 智力 成 果 包 括 挖掘 数据 或 使 用 模 
型 的 新 技术 ， 它 们 既 可 以 是 取得 专利 的 ， 也 可 以 是 商业 机 密 。 在 前 一 种 情况 下 ,竞争 者 要 
么 无 法 (合法 地 ) 复制 解决 方案 ， 要么 因 成 本 过 高 而 难以 复制 解决 方案 ， 比 如 ， 他 们 需要 
取得 我 们 技术 的 授权 ， 或 开发 新 的 技术 来 绕 过 专利 。 而 如 果 我 们 的 智力 成 果 是 商业 机 窗 ， 
那么 竞争 者 可 能 不 知道 我 们 如 何 应 用 解决 方案 。 在 数据 科学 解决 方案 方面 ， 其 实际 的 机 制 
往往 是 隐藏 的 ， 只 有 结果 可 见 。 


13.3.3 独一无二 的 无 形 抵押 资产 


竞争 对 手 可 能 无 法 得 知 如 何 应 用 解决 方案 。 对 成 功 的 数据 科学 解决 方案 而 言 ， 模 型 性 能 高 
(比如 预测 模型 的 高 准确 率 ) 的 实际 原因 可 能 是 不 清晰 的 。 预 测 模 型 的 有 效 性 可 能 主要 依 
靠 问题 设计 、 所 创建 的 属性 、 多 种 模型 的 组 合 等 。 在 实践 中 ， 竞 争 者 往往 不 清楚 如 何 达到 
这 样 的 效果 。 就 算 公 开 算法 的 所 有 细 方 ， 要 使 实验 室 方 案 在 实际 生产 中 起 作用 ， 其 关键 也 
可 能 在 于 应 用 中 的 细节 。 

此 外 ， 竞 争 优势 的 基础 也 可 能 是 无 形 资产 ， 比 如 那 种 特别 适合 部 署 数 据 科 学 解决 方案 的 公 
司 文化 。 举 个 例子 ， 欢 迎 业 务实 验 和 (严格) 支持 数据 需求 的 公司 文化 ， 自 然 会 形成 数据 
科学 解决 方案 容易 成 功 的 环境 。 或者， 如 果 开 发 者 有 学 习 数 据 科学 的 动力 ， 就 不 太 可 能 会 
在 工程 上 搞 古 高 质量 的 解决 方案 。 还 记得 那 条 格言 吗 ? “你 的 模型 不 是 数据 科学 家 设计 的 
那个 ， 而 是 数据 工程 师 搭建 的 那个 。 
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13.3.4 ”优秀 的 数据 科学 家 

我 们 的 数据 科学 家 可 能 比 竞争 对 手 的 更 好 。 数 据 科学 家 的 质量 和 能 力 存 在 较 大 差别 ， 即 使 
在 接受 过 最 上 乘 训练 的 数据 科学 家 中 ， 也 会 有 人 同时 有 具备 天 生 的 创造 力 、 人 敏锐 的 分 析 能 
力 、 商 业 意 识 和 耐心 ， 并 因此 能 比 其 他 人 提出 更 好 的 解决 方案 ， 这 是 数据 科学 圈子 普遍 认 
可 的 事实 。 


每 年 举办 的 KDD Cup 数据 挖掘 大 赛 的 结果 就 能 说 明 能 力 上 最 极端 的 差异 。 每 年 ， 数 据 科 
学 家 的 顶尖 的 职业 团体 ACM SIGKDD 都 会 举办 一 次 会 议 (ACM SIGKDD 知识 发 现 与 数 
据 挖 掘 国际 会 议 ) ， 而 每 年 的 会 议 都 会 举办 一 场 数 据 挖掘 比赛 。 一 些 数 据 科学 家 喜欢 参与 
比赛 ， 而 这 样 的 比赛 有 很 多 ， 甚 至 已 经 变 成 了 众 包 业务 (I Kaggle)， 第 12 章 讨 论 过 的 
Netflix 大 赛 就 是 最 知名 的 比赛 之 一 。KDD Cup 是 数据 挖掘 比赛 的 鼻祖 ， 自 1997 年 开始 每 
年 举办 一 次 。 为 什么 该 比赛 和 本 节 内 容 相 关 呢 ? 因为 世界 上 一 些 最 优秀 的 数据 科学 家 也 会 
参加 这 些 比赛 ， 成 百 上 千 ( 依 年 份 和 赛 题 而 定 ) 的 选手 会 尽力 解决 问题 。 如 果 数 据 科学 家 
的 才能 呈 均 匀 分 布 状 态 ， 那 么 很 难 想象 我 们 会 看 到 同样 的 选手 反复 的 获奖 。 但 是 事实 就 是 
这 样 的 。 有 些 人 总 是 出 现在 获胜 团队 的 成 员 名 单 内 ， 有 时 候 是 一 连 多 年 获奖 ， 有 时 候 则 是 
在 同一 年 中 的 多 个 问题 中 获奖 (大 赛 可 能 会 包含 多 个 赛 题 )。' 这 里 的 重点 是 ， 即 使 是 最 拔 
尖 的 数据 科学 家 ， 其 能 力也 存在 巨大 差异 ，KDD Cup 大 赛 的 “客观 ”结果 也 显示 了 这 点 。 
结果 是 ， 凭 借 这 种 能 力 上 的 巨大 差异 ， 最 好 的 数据 科学 家 可 以 根据 薪资 、 公 司 文化 、 发 展 
机 会 等 方面 按照 他 们 的 意愿 来 选择 就 业 机 会 。 


对 顶尖 的 数据 科学 家 的 大 量 需 求 ， 会 强化 这 种 数据 科学 家 的 能 力 差异 。 所 有 人 都 可 以 自称 
数据 科学 家 ， 而 很 少 有 公司 能 真正 评估 可 能 被 雇用 的 数据 科学 家 是 否 符合 要 求 ， 由 此 引发 
了 另 一 个 难题 : 公司 至 少 需要 有 一 位 顶尖 数据 科学 家 ， 才 能 真正 评估 求职 者 的 能 力 。 因 
此 ， 培 养 出 强大 的 数据 科学 能 力 的 企业 ， 就 会 比 聘请 不 到 数据 科学 家 的 竞争 对 手 拥有 更 显 
著 、 更 持久 的 优势 。 而 且 ， 顶 尖 的 数据 科学 家 会 互相 吸引 ， 这 能 进一步 加 强 我 们 的 优势 。 


我 们 还 必须 承认 ， 数 据 科学 在 某 种 程度 上 是 一 种 手艺 。 分 析 方 面 的 专业 知识 需要 花 时 间 习 
得 ， 单 是 读书 或 看 视频 课程 并 不 能 让 人 精通 它们 。 这 种 手艺 是 通过 经 验 学 习 的 ， 最 高 效 的 
学 习 方 法 类 似 经 典 贸易 中 的 方法 : 想 出 人 头 地 的 数据 科学 家 要 去 给 大 师 当 学 徒 。 这 些 人 可 
以 追随 重视 应 用 的 顶尖 教授 完成 研究 生 课程 ， 也 可 以 在 企业 里 和 顶尖 的 业界 数据 科学 家 合 
和 作 。 等 到 学 徒 的 本 领 足够 精湛 ， 成 为 “熟练 工人 ”的 时 候 ， 就 能 在 团队 中 扮演 更 独立 的 角 
色 ， 甚 至 独立 领导 项 目 了 。 很 多 高 水 平 的 数据 科学 家 都 愿意 在 职业 生涯 中 以 这 种 身份 工 
人 攻 ， 其 中 一 小 部 分 人 自身 成 为 了 大 师 ， 因 为 他 们 既 能 发 现 数据 科学 中 的 新 机 遇 〈 稍 后 详细 
讲解 ) 又 精通 理论 和 技术 。 这 些 人 中 的 一 部 分 又 会 雇用 自己 的 学 徒 。 理 解 这 种 学 习 路 径 有 
助 于 我 们 在 招聘 时 集中 精力 ， 只 去 寻找 曾经 跟着 顶尖 大 师 学 习 过 的 数据 科学 家 。 你 也 可 以 
将 其 灵活 运用 : 雇 一 位 顶尖 的 数据 科学 家 大 师 ， 从 而 吸引 其 他 高 水 平 而 有 抱负 的 数据 科学 
家 来 当 他 /她 的 学 徒 。 


除 此 之 外 ， 顶 尖 的 数据 科学 家 还 必须 有 强大 的 专业 网 络 。 此 处 的 “网 络 ” 并 不 是 指 线 上 的 
专业 网 络 系统 ， 而 是 指 ， 高 效 的 数据 科学 家 应 该 与 数据 科学 圈子 里 的 其 他 数据 科学 家 有 着 

























































































































































































注 1: 这 并 不 是 说 KDD Cup 获胜 者 必定 是 世界 上 最 优秀 的 数据 挖掘 者 ， 许 多 顶尖 数据 科学 家 从 来 没 参 与 过 
这 样 的 比赛 ， 有 的 可 能 只 参与 过 一 次 ， 然 后 就 专心 做 别 的 事情 了 。 



































数据 科学 和 经 营 战略 | 241 


深厚 的 联系 。 这 是 因为 数据 科学 的 领域 过 于 广大 、 内 容 过 于 丰富 ， 个 人 无 法 全 部 精通 ， 而 
顶尖 的 数据 科学 家 却 往 往 精 通 某 些 技术 ， 并 且 熟 知 许多 其 他 技术 。( 注 意 不 要 犯 “ 百 样 通 ， 
无 一 精 ” 的 错误 。) 然而 ， 我 们 并 不 希望 精通 某 些 领域 的 数据 科学 家 强行 用 一 种 方法 去 解 
决 所 有 问题 。 一 位 顶尖 的 数据 科学 家 面 对 手 头 的 问题 会 引入 必要 的 专业 知识 。 这 一 点 很 大 
程度 上 要 借助 于 强大 而 深厚 的 专业 人 脉 。 数 据 科学 家 会 互相 求助 来 引导 自己 寻找 正确 的 解 
决 方案 。 而 专业 交际 网 络 越 强大 ， 解 决 方案 就 越 优秀 。 而 且 ， 最 优秀 的 数据 科学 家 往往 也 
有 最 好 的 人 脉 。 


13.3.5 ”优秀 的 数据 科学 管理 


要 想 在 业务 中 成 功 应 用 数据 科学 ， 更 关键 的 因素 可 能 是 对 数据 科学 团队 的 高 水 平 管理 。 优 
秀 的 数据 科学 管理 者 尤其 难以 寻 砚 ， 他 们 需要 充分 理解 数据 科学 的 基础 ， 其 至 本 身 就 是 称 
职 的 数据 科学 家 。 他 们 还 必须 拥有 普通 人 所 难以 拥有 的 一 系列 能 


。 真正 理解 和 领会 业务 需要 ， 而 且 应 该 有 能 力 预 测 业务 需要 ， 从 而 可 以 在 与 职责 不 同 的 同 

尘 的 相互 交流 中 ， 产 生 有 关 数 据 科学 新 产品 和 新 服务 的 思路 。 

。 与 搞 技 术 的 和 搞 业 务 的 都 能 顺畅 沟通 ， 且 得 到 他 们 的 尊重 。 这 一 点 通常 指 的 是 能 把 数据 
科学 术语 (本 书 中 尽量 少 涉及 的 内 容 ) 转化 成 业务 术语 ， 反 之 亦 然 。 

。 协调 在 技术 上 很 复杂 的 活动 ， 比 如 根据 业务 限制 或 成 本 ， 进 行 多 模型 或 多 过 程 整合 ， 要 
求 数据 科学 管理 者 理解 业务 的 技术 结构 ， 比 如 数据 系统 或 生产 软件 系统 ， 从 而 保证 数据 
科学 团队 得 出 的 解决 方案 在 实际 中 确实 有 效 。 

。 能 预见 数据 科学 项 目的 结果 。 我 们 曾 讨论 过 ， 相 比 其 他 商业 活动 ， 数 据 科学 更 像 研发 。 
一 个 数据 科学 项 目 是 否 能 取得 积极 的 结果 ， 在 一 开始 ， 甚 至 在 项 目 进行 中 都 是 高 度 不 确 
定 的 。 尽 管 本 书 其 他 部 分 简要 讨论 了 构造 概念 证 明 研 究 的 重要 性 ， 然 而 这 种 研究 的 正面 
和 负面 结果 都 无 法 预测 更 大 型 项 目的 成 功 与 否 。 它 们 只 能 指导 对 下 一 轮 数 据 挖掘 循环 过 
程 的 投资 〈 回 忆 第 2 章 )。 如 果 要 从 研发 管理 中 寻求 管理 数据 科学 的 方法 ， 那 么 你 会 发 
现 只 有 一 个 预测 指标 能 可 靠 地 预测 一 个 研究 项 目的 成 功 与 否 ， 而 且 这 种 预测 非常 准确 : 
研究 人 员 以 前 的 成 功 经 历 。 数 据 科 学 项 目的 情况 也 一 样 ， 有 的 人 就 是 能 赁 直觉 看 出 项 目 
会 不 会 成 功 。 虽 然 没 有 对 这 种 情形 出 现 的 原因 进行 仔细 研究 ， 但 是 经 验 告诉 我 们 就 是 如 
此 。 正 如 在 一 些 数据 科学 大 赛 中 我 们 看 到 有 人 多 次 表现 优异 ， 我 们 也 能 看 到 有 些 人 能 
次 预料 到 数据 科学 新 机 遇 ， 并 抓 住 它们 取得 成 功 。 这 是 非常 令 人 印象 深刻 的 ， 因 为 有 许 
多 数据 科学 管理 者 连 一 个 会 成 功 的 项 目 都 没 看 出 来 过 。 

。 以 上 能 力 均 需 在 公司 文化 之 下 培养 。 


最 后 ， 我 们 的 数据 科学 能 力 对 竞争 对 手 来 说 可 能 难以 复制 ， 或 复制 成 本 过 高 ， 因 为 我 们 可 
以 雇用 更 优秀 的 数据 科学 家 和 数据 科学 管理 者 。 这 可 能 要 归功 于 我 们 对 数据 科学 家 极 具 吸 
引力 的 声誉 和 品牌 一 一 他 们 更 喜欢 在 对 数据 科学 和 数据 科学 家 友好 的 公司 中 工作 。 或 者 也 
可 能 是 因为 公司 对 数据 科学 家 有 某 种 更 微妙 的 吸引 力 。 因 此 ， 我 们 来 继续 探讨 吸引 高 水 平 
数据 科学 家 的 方法 。 



















































































































































































242 | 第 13 章 


13.4 了 吸引 和 培养 数据 科学 家 及 其 团队 


在 本 章 开 始 时 ， 我 们 说 过 ， 确 保 公 司 能 够 最 大 限度 地 利用 数据 资产 的 两 个 重要 因素 是 : 首 
先 ， 企业 管理 层 必须 具有 数据 分 析 思 维 ， 其 次 ， 企 业 管理 层 必须 培育 出 一 种 有 利于 数据 科 
学 和 数据 科学 家 繁荣 发 展 的 文化 。 如 上 文 所 述 ， 高 水 平 的 数据 科学 家 和 普通 水 平 的 数据 科 
学 家 的 能 力 存 在 巨大 差异 ， 一 个 高 水 平 的 数据 科学 团队 和 单个 高 水 平 的 数据 科学 家 之 间 也 
有 巨大 差异 。 但 如 何 保证 我 们 对 顶尖 数据 科学 家 有 吸引 力 呢 ? 又 如 何 成 立 优秀 团队 呢 ? 


这 是 一 个 在 实践 中 很 难 回答 的 问题 。 在 本 书写 作 之 时 ， 顶 尖 数 据 科学 家 的 缺口 仍 非常 大 ， 
这 导致 他 们 的 需求 市 场 竞 争 非 常 激烈 。 最 善于 雇用 数据 科学 家 的 企业 是 IBM、 和 微软、 谷歌 
这 一 类 的 企业 ， 他 们 用 各 种 方式 清楚 地 显示 对 数据 科学 的 重视 ， 包 括 工资 、 津 贴 和 /或 无 形 
资产 。 无 形 资产 包括 一 些 无 法 忽略 的 因素 ， 比 如 ， 数 据 科学 家 喜欢 与 其 他 顶尖 的 同行 共事 。 
某 些 人 可 能 会 说 ， 他 们 是 需要 这 么 做 ， 不 是 为 了 享受 日 复 一 日 的 工作 。 因 为 数据 科学 领域 
过 于 广博 ， 多 个 数据 科学 家 的 集体 智慧 可 以 让 他 们 在 解决 方案 中 应 用 更 多 种 类 的 技术 。 


不 过 ， 即 使 在 这 样 不 利 的 市 场 里 ， 也 是 有 成 功 路 径 可 寻 的 。 比 起 在 行业 巨头 里 工作 ， 许 多 
数据 科学 家 希望 获得 更 多 的 个 人 影响 力 。 其 中 有 许多 人 希望 能 够 承担 更 多 责任 (同时 也 相 
应 获得 更 多 的 经 验 )， 在 更 广泛 的 范围 内 输出 数据 科学 解决 方案 ， 有 的 希望 担任 一 家 企业 
的 首席 科学 家 ， 而 且 清 楚 成 为 小 型 的 、 更 灵活 的 公司 的 首席 科学 家 更 顺理成章 一 些 ， 有 的 
希望 成 为 企业 家 ， 而 且 清 楚 在 创业 公司 中 担任 数据 科学 家 的 经 历 可 以 给 他 们 带 来 无 价 的 经 
验 ， 有 的 则 单纯 地 享受 在 快速 增长 的 企业 中 工作 的 刺激 感 : 在 一 家 年 增长 20% 或 50% 的 
公司 中 工作 和 在 一 家 年 增长 5% 或 10% (或 完全 不 增长 ) 的 公司 中 工作 ， 其 体验 是 非常 不 
同 的 。 

鉴于 以 上 所 有 情景 ， 企 业 如 果 和 希望 在 雇用 数据 科学 家 方面 具有 优势 ， 就 必须 创造 出 适合 数 
据 科学 和 数据 科学 家 的 企业 环境 。 如 果 你 的 数据 科学 家 团队 人 手 不 足 ， 那 就 开动 脑筋 吧 。 
鼓励 你 的 数据 科学 家 们 参与 当地 的 数据 科学 技术 社 群 ， 其 至 成 为 全 球 数据 科学 学 术 圈 的 一 
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有 关 结 果 的 发 表 

科学 是 一 项 社会 性 事业 ， 优 秀 的 数据 科学 家 经 常会 通过 发 表 其 工作 进展 来 参 
与 社区 活动 。 而 企业 有 时 候 很 难 理解 这 一 点 ， 因 为 企业 会 觉得 这 是 在 自我 损 
耗 ， 或 者 是 勾结 竞争 对 手 ， 透 露 企 业 机 密 。 而 另 一 方面 ， 如 果 不 让 数据 科学 
家 这 么 做 ， 企 业 就 无 法 雇用 或 者 留 住 优 秀 的 数据 科学 家 。 其 实 发 表 成 果 对 企 
业 也 有 一 定好 处 ， 比 如 增加 宣传 ， 扩 大 上 曝光， 从 外 部 验证 内 部 创意 ， 等 等 。 
这 个 问题 虽然 并 没有 很 清晰 的 答案 ， 但 仍 值得 企业 谨慎 考虑 。 有 的 公司 比较 
激进 地 为 自己 的 数据 科学 创意 申请 专利 ， 如 果 这 些 创意 后 来 被 证 明 的 确 具 备 
创新 性 和 重要 性 ， 那 么 学 术 发 表 就 是 理 所 应 当 的 。 




























































































企业 可 以 通过 聘请 学 术 数 据 科学 家 来 支持 企业 的 数据 科学 。 这 样 做 的 方法 有 好 几 种 。 针 
对 有 兴趣 在 实际 中 应 用 其 研究 成 果 的 学 者 ， 企 业 可 以 资助 他 们 的 研究 项 目 。 本 书 的 两 
位 作者 在 业界 工作 时 ， 都 曾 资助 过 学 术 项 目 ， 这 人 么 做 本 质 上 扩展 了 他 们 的 数据 科学 团 
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队 ， 而 且 其 成 员 会 关注 他 们 感 兴趣 的 问题 并 不 断 互动 。 最 好 的 安排 (根据 我 们 的 经 验 ) 
是 将 数据 、 资 金 和 有 趣 的 商业 问题 相 结 合 。 如 果 该 项 目 最 终 成 为 了 某 顶 尖 院 校 博士 生 
论文 的 一 部 分 ， 那 么 对 企业 而 言 ， 其 收益 将 远 超 成 本 。 资 助 一 名 博士 生 的 成 本 大 约 是 
5 万 美元 一 年 ， 而 这 只 是 聘请 一 位 顶级 全 职 数 据 科学 家 成 本 的 一 小 部 分 。 这 里 的 关键 在 于 
企业 要 足够 理解 数据 科学 ， 选 择 合适 的 学 者 一 一 其 专业 需 与 企业 的 问题 相 匹配 。 

另 一 种 方法 则 非常 划算 : 聘请 一 位 或 多 位 顶尖 数据 科学 家 作为 科学 顾问 。 如 果 这 种 关系 的 
结构 能 使 得 顾问 真正 在 问题 解决 方案 上 进行 互动 ， 那 么 那些 没有 资源 或 者 影响 力 来 聘请 最 
优秀 的 数据 科学 家 的 公司 ， 就 可 以 大 大 提高 其 最 终 解决 方案 的 质量 。 这 些 顾 问 既 可 以 来 自 
合伙 企业 ， 也 可 以 来 自 与 你 的 公司 具有 相同 投资 人 或 董事 会 成 员 的 公司 ， 还 可 以 是 有 足够 
时 间 提 供 咨询 的 学 者 。 

另 一 种 完全 不 同 的 方法 则 是 雇用 第 三 方 来 处 理 有 关 数 据 科学 的 问题 。 第 三 方 数据 科学 提供 
商 种 类 繁多 ， 既 有 专门 从 事 商 业 分 析 的 大 型 公司 (如 IBM)， 也 有 专业 数据 科学 咨询 公司 
(如 Elder Research) ， 还 有 仅 帮 助 少数 客户 发 展 他 们 的 数据 科学 能 力 的 精品 数据 科学 公司 
(如 Data Scientists, LLC),“ 你 可 以 在 KDnuggets 上 找到 大 量 数据 科学 服务 公司 以 及 各 种 其 
他 数据 科学 资源 。 在 寻找 数据 科学 咨询 公司 时 请 注意 ， 他 们 的 利益 与 其 客户 的 利益 并 不 是 
始终 一 致 的 。 尽 管 这 一 点 对 经 验 丰 富 的 咨询 服务 用 户 来 说 显而易见 ， 然 而 并 非 每 个 人 都 明 


白 这 一 点 。 


精明 的 管理 者 会 有 策略 地 使 用 所 有 这 些 资源 。 一 位 首席 科学 家 或 一 位 得 到 授权 的 管理 者 ， 
通常 可 以 为 一 个 项 目 组 建 一 个 比 大 多 数 公司 所 能 雇用 到 的 团队 更 强大 、 更 多 样 化 的 团队 。 


13.5 检验 数据 科学 案例 分 析 


除了 建立 一 个 可 靠 的 数据 科学 团队 之 外 ， 管 理 者 如 何 确保 公司 能 够 最 好 地 应 用 数据 科学 ? 
答案 是 要 确保 员工 对 数据 科学 的 基本 原理 有 一 定 的 理解 和 认识 。 这 样 一 来 ， 整 个 公司 的 员 
工 都 会 经 常 发 现 新 的 应 用 场景 。 


在 掌握 了 数据 科学 的 基本 原则 之 后 ， 确 保 自己 取得 成 功 的 最 佳 方法 是 通过 许多 例子 来 学 习 
数据 科学 在 商业 问题 中 的 应 用 。 阅 读 那些 涉及 实际 数据 挖掘 过 程 的 案例 研究 ， 并 制定 自己 
的 案例 研究 。 虽 然 实际 操作 数据 挖掘 是 有 帮助 的 ， 但 更 重要 的 是 理解 商业 问题 和 可 能 的 数 
据 科学 解决 方案 之 间 的 联系 。 你 处 理 过 的 不 同 问 题 越 多 ， 就 越 能 一 眼看 出 并 充分 利用 机 
遇 ， 进 而 利用 数据 中 “存储 ”的 知识 和 信息 。 通 常 同 一 个 问题 的 定义 仅 需 稍 做 改变 ， 就 可 
以 通过 类 比 应 用 于 另 一 个 问题 。 


要 记 住 ， 本 书 中 出 现 的 示例 是 为 了 用 于 说 明 而 选择 或 设计 的 。 而 现实 中 ， 业 务 和 数据 科学 
队 不 但 应 该 做 好 面 对 多 种 混乱 情况 和 各 种 限制 的 准备 ， 而 且 必须 灵活 地 应 对 它们 。 有 些 
时 候 ， 他 们 有 大 量 的 数据 和 数据 科学 技术 可 供 使 用 。 而 其 他 时 候 ， 情 况 似乎 更 像 是 电影 
《阿波 罗 13 号 》 中 的 关键 场景 。 电 影 中 ， 指 挥 舱 发 生 故 障 ， 引 发 爆炸 ， 导 致 宇航 员 被 困 在 
距 地 球 约 40 万 千 米 的 太空 。 此 时 二 氧化 碳水 平 急剧 上 升 ， 这 可 能 导致 他 们 无 法 活着 返回 
地 球 。 简 而 言 之 ， 因 为 手头 物资 有 限 ， 所 以 工程 师 需 要 想 办 法 用 一 个 大 的 立方 体 过 滤器 换 
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注 2: 免责 声明 : 作者 与 Data Scientists, LLC 有 关 。 
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掉 以 前 较 小 的 圆柱 体 过 滤器 CRRA TT IE EK BE ATE IR EL). FER RN, A 
工程 师 把 指挥 舱 里 所 有 的 “东西 ”都 倒 到 了 桌子 上 ， 然 后 告诉 队员 :“ 朋 友 们 …… 我 们 得 
想 办 法 只 用 那个 东西 ， 把 这 个 东西 塞 进 匹配 这 个 东西 的 洞 里 。 实际 的 数据 科学 问题 往往 
更 像 这 种 情况 ， 而 不 是 教科 书 里 的 情况 。 

比如 ，Perlich 等 人 〈2013) 描述 了 关于 这 种 情况 的 研究 。 在 为 线 上 展示 广告 选择 目标 用 户 
时 ， 如 果 要 获取 足够 的 理想 训练 数据 ， 成 本 就 会 奇 高 无 比 。 然 而 ， 从 各 种 其 他 分 布 中 为 了 
其 他 变量 而 获取 数据 成 本 要 低 得 多 。 他 们 的 解决 方法 非常 有 效 ， 能 把 根据 这 些 替代 数据 构 
造 的 模型 拼凑 起 来 ， 然 后 “转化 ”成 目标 问题 中 可 以 使 用 的 模型 。 使 用 这 些 替 代数 据 就 能 
大 幅 降 低 获 取 数 据 的 投资 。 


13.6 ”做 好 准备 ， 接 受 来 源 各 异 的 创意 


一 旦 各 方 都 理解 了 数据 科学 的 基本 概念 ， 各 种 关于 问题 解决 方案 的 创新 概念 就 会 开始 从 四 
面 八方 涌 入 。 它 们 既 可 以 来 自发 现 了 新 业务 线 的 执行 官 ， 也 可 以 来 自负 责 处 理 损 益 责 任 的 
主管 ， 还 可 以 来 自负 责 管理 业务 流程 的 管理 人 员 ， 以 及 详细 了 解 具体 业务 运作 流程 的 一 线 
员工 。 我 们 应 该 鼓励 数据 科学 家 在 整个 业务 过 程 中 和 员工 保持 交流 ， 而 且 他 们 的 绩效 评估 
在 某 种 程度 上 应 该 基于 他 们 用 数据 科学 创造 的 新 思路 是 改进 业务 的 效果 。 顺 便 提 一 下 ， 这 
样 做 还 会 带 来 一 些 意料 之 外 的 收获 : 数据 科学 家 拥有 的 数据 处 理 技能 通常 可 以 被 以 不 那么 
复杂 的 方式 应 用 ， 这 样 可 以 帮助 没有 这 些 技能 的 其 他 员工 。 管 理 者 通常 不 知道 他 们 也 可 以 
获取 一 些 数据 一 一 那些 不 需 复杂 的 数据 科学 知识 就 能 直接 帮助 管理 者 的 数据 。 


13.7 ”做 好 准备 ， 评 估 数 据 科 学 项 目 提案 


通过 数据 科学 改进 商业 决策 的 想法 可 以 有 很 多 方向 。 管 理 者 、 投 资 者 和 员工 都 应 该 有 能 
清晰 地 形成 这 样 的 想法 ， 而 决策 者 则 应 该 做 好 准备 来 评估 这 些 想法 。 本 质 上 ， 我 们 应 该 既 
能 制定 切实 的 提案 ， 又 能 评估 这 些 提案 。 


第 2 章 描述 的 数据 挖掘 过 程 提 供 了 关于 这 一 点 的 指导 性 框架 。 其 过 程 中 的 每 一 步 都 会 暴露 
一 些 问题 ， 而 这 些 问题 不 仅 应 该 在 制定 项 目 提案 时 被 考虑 到 ， 还 应 该 在 评估 提案 的 环 市 被 
考虑 到 。 


。 该 商业 问题 是 否 界定 明确 ?数据 科学 解决 方案 是 否 解 决 了 该 问题 ? 
。 评估 解决 方案 的 方法 是 否 清晰 ? 
。 我 们 能 否 在 对 部 署 进行 巨额 投资 之 前 看 到 成 功 的 依据 ? 
公司 是 否 拥有 它 所 需要 的 数据 资产 ? 比如 ， 是 否 有 供 有 监督 建 模 使 用 的 标注 训练 数据 ? 
如 有 果 疫 有 ， 公 司 是 否 准备 投资 于 数据 资产 ? 
附录 A 提供 了 一 个 起 始 问题 列表 ， 用 于 评估 数据 科学 提案 。 这 些 问 题 是 按照 数据 挖掘 的 流 
程 整理 的 。 请 看 一 个 说 明 性 的 例子 。( 附 录 B 中 提供 了 一 个 可 供 评估 的 提案 示例 ， 其 内 容 
有 关 用 户 流失 问题 。) 
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13.7.1 数据 挖掘 提案 示例 


你 的 公司 开发 的 小 部 件 Whiz-bang” 目前 有 90 万 名 安装 用 户 ， 现 在 你 要 开发 2.0 版 本 ， 该 
版 本 的 运营 成 本 远 低 于 现 版 本 。 你 希望 能 把 现 版 本 的 所 有 用 户 全 部 转移 到 (迁移 到 ) 2.0 
版 本 。 但 由 于 2.0 版 本 更 换 了 界面 ， 因 而 存在 一 个 严重 的 风险 : 用 户 可 能 会 因 难 以 掌握 新 
界面 的 使 用 方法 而 不 愿 换 用 新 版 本 ， 进 而 对 你 的 公司 产生 不 满 ， 甚 至 会 因此 转向 竞争 对 手 
旗下 的 流行 小 部 件 Boppo"。 市 场 部 设计 了 一 种 全 新 的 迁移 激励 方案 ， 其 中 每 个 目标 用 户 的 
成 本 是 250 美元 。 但 收 到 激励 的 用 户 是 否 一 定 会 换 用 2.0 版 本 ， 这 无 法 保证 。 
一 家 第 三 方 公司 Big Red 咨询 公司 给 Whiz-bang”2.0 设计 了 一 个 选 定 目标 用 户 的 方案 ， 而 
你 因为 展示 出 了 出 色 的 数据 科学 基础 知识 和 数据 科学 能 力 ， 被 选 来 评估 Big Red 的 这 项 提 
案 。Big Red 的 选择 看 上 去 是 否 正确 ? 

Whiz-bang 目标 用 户 迁 移 方案 一 一 由 Big Red 咨询 公司 设计 

我 们 将 用 现代 数据 挖 握 技 术 开 发 一 个 预测 模型 。 上 次 会 议 中 提 到 ， 我们 估计 用 户 

迁移 阶段 的 预算 是 500 万 美元 。 但 若 要 调整 预算 ， 方案 也 可 以 很 方便 地 随 之 调 

整 。 该 预算 下 ， 我 们 可 以 选择 2 万 名 目标 用 户 。 以 下 是 选择 方法 : 

首先 用 数据 构建 模型 ， 以 判断 用 户 是 否 会 在 受到 激励 后 进行 迁移 。 数 据 集 包含 用 

户 的 一 系列 属性 ， 如 前 期 与 客服 的 互动 次 数 和 互动 类 型 、 小 部 件 的 使 用 程度 、 用 

户 地 址 、 对 技术 熟悉 的 程度 的 估计 、 作 为 公司 用 户 的 时 间 及 其 他 忠诚 度 指标 ， 如 

使 用 其 他 公司 的 产品 或 服务 的 数量 。 目 标 变量 为 用 户 在 受到 激励 后 是 否 会 迁移 到 

新 版 应 用 。 我 们 将 根据 数据 构造 线性 回归 ， 以 估计 目标 变量 。 我 们 将 根据 模型 在 

该 数据 集 上 的 预测 精度 ， 尤 其 是 模型 精度 是 否 比 随机 选 定 目标 用 户 的 精度 更 高 ， 

来 对 模型 进行 评估 。 

模型 的 使 用 方法 是 : 首先 用 回归 模型 估计 每 个 用 户 的 目标 变量 值 ， 值 大 于 0.5， 

我 们 就 认为 该 用 户 会 迁移 ; 否则 就 认为 其 不 会 迁移 。 然 后 ， 从 被 认为 会 迁移 的 用 

户 中 随机 选择 2 万 名 ， 作 为 推荐 的 目标 用 户 。 


13.7.2 Big Red 提 案 中 的 缺陷 

我 们 可 以 运用 对 数据 科学 基本 原则 和 其 他 基本 概念 的 理解 ， 找 出 提案 中 的 缺 响 。 附 录 A 提 

供 了 评估 此 类 提案 的 初始 指南 ， 其 中 包括 一 些 需 要 提问 的 主要 问题 。 但 总 的 来 说 ， 本 书 也 

可 以 被 视 作 一 本 提案 评估 指南 。 以 下 是 Big Red 提案 中 的 一 些 主要 缺陷 。 

业务 理解 
目标 变量 定义 不 准确 。 比 如 ， 迁 移 必 须 在 多 长 时 间 内 发 生 ? (MÆ 3 BE) 

。 数据 挖掘 问题 的 定义 应 该 与 商业 问题 更 加 匹配 。 比 如 ， 如 果 用 户 (或 所 有 人 ) 无 论 如 何 
都 会 迁移 呢 (即使 没有 受到 激励 ) ?这 种 情况 下 ， 选 择 目 标 用 户 的 激励 成 本 就 完全 浪费 
了 。( 见 第 2 章 、 第 11 章 ) 

数据 理解 / 数据 准备 
没有 带 标 注 的 训练 数据 ! 由 于 这 是 一 种 全 新 的 激励 措施 ， 因 而 我 们 应 该 花 一 些 预算 来 获 
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取 一 些 用 户 的 标签 数据 。 我 们 既 可 以 通过 (随机 ) 选择 一 小 部 分 用 户 作为 激励 目标 来 获 

取 数 据 ， 也 可 以 使 用 其 他 更 复杂 的 方法 。( 见 第 2 章 、 第 3 章 、 第 11 章 ) 

如 果 担 心 会 在 无 论 如 何 都 会 迁移 的 用 户 身上 浪费 激励 成 本 ， 那 我 们 还 可 以 在 获取 训练 数 

据 的 一 段 时 间 内 观察 “控制 组 ”的 情况 。 这 点 应 该 不 难 ， 因 为 所 有 未 被 选 为 目标 的 用 户 

都 属于 “控制 组 ”。 可 以 为 “在 不 给 出 激励 的 条 件 下 ， 用 户 是 否 会 迁移 ”这 一 问题 单独 建 模 ， 

并 且 根 据 期 望 值 框架 将 这 些 模型 进行 组 合 。( 见 第 11 章 ) 

建 模 过 程 
类 别 型 目标 变量 不 适合 用 线性 回归 建 模 ， 而 适合 使 用 分 类 方法 ， 比 如 树 型 归纳 、 逻 辑 回 
VA, 大 最 近邻 等 。 我 们 蕉 至 可 以 尝试 用 多 种 方法 建 模 , 然后 用 实验 方法 对 它们 进行 评估 ， 
以 挑选 出 最 佳 方法 。( 见 第 2 章 、 第 3 章 、 第 4 章 、 第 5 章 、 第 6 章 、 第 7 章 、 第 8 章 ) 

评估 环节 

。 评估 不 应 该 使 用 训练 数据 ， 而 应 该 使 用 一 些 保留 方法 (如 ， 交 又 验 证 /或 前 文 探讨 的 阶 
段 式 方法 )。( 见 第 5 章 ) 

。 是 否 要 对 模型 进行 领域 知识 验证 呢 ? 如 果 验 证 后 发 现 数据 收集 过 程 存 在 问题 怎么 办 ? 
( 见 第 7 章 、 第 11 章 、 第 14 章 ) 

部 署 环节 

。 在 回归 值 大 于 0.5 的 用 户 中 随机 选择 的 方法 并 不 明智 。 首 先 ， 无 法 确定 回归 值 为 0.5 一 
定 相 当 于 迁移 概率 为 0.5， 其 次 ，0.5 这 个 值 在 许多 情况 下 都 很 武断 ， 最 后 ， 既 然 该 模型 
会 生成 排序 (比如 根据 迁移 概率 ， 如 果 我 们 使 用 更 复杂 的 公式 ， 那 么 还 有 可 能 根据 期 望 
值 排序 ) ， 我 们 就 应 该 用 这 些 排序 来 指导 对 目标 用 户 的 选择 : 在 预算 内 选择 排名 最 高 的 
一 些 用 户 。( 见 第 2 章 、 第 3 章 、 第 7 章 、 第 8 章 、 第 11 章 ) 

当然 了 ， 这 只 是 提案 中 可 能 出 现 的 缺陷 的 一 个 例子 。 提 案 不 同 ， 其 缺陷 也 不 同 ， 发 现 缺陷 

所 依据 的 概念 也 随 之 不 同 。 


13.8 ”企业 的 数据 科学 成 熟 度 


如 果 一 个 公司 想 切 实地 推行 数据 科学 计划 ， 那 么 坦率 而 理性 地 说 ， 该 公司 需要 评估 自身 的 
数据 科学 成 熟 度 。 虽 然 这 一 概念 是 一 种 自我 评估 指导 ， 超 出 了 本 书 的 范围 ， 但 此 处 仍 需 简 
要 介绍 一 下 。 
不 同 公司 的 数据 科学 能 力 在 许多 方面 都 存在 巨大 差异 ， 比 如 一 个 对 战略 规划 来 说 非常 重要 
的 方面 : 公司 的 “成 熟 度 ”。 这 个 概念 特 指 用 于 指导 公司 的 数据 科学 项 目的 过 程 的 系统 性 
和 有 根据 的 程度 。” 

成 熟 度 评估 范围 的 一 个 极端 是 ， 公 司 的 数据 科学 流程 完全 是 随机 的 。 许 多 公司 中 的 员工 在 
参与 数据 科学 和 数据 分 析 项 目 时 ， 并 没有 这 方面 的 学 习 经 历 ， 而 相关 管理 者 也 对 数据 科学 
的 基本 原则 和 数据 分 析 式 思维 一 容 不 通 。 












































































































































注 3: 对 公司 能 力 成 熟 度 感 兴 趣 的 读者 不 妨 在 维基 百科 网 站 上 阅读 软件 工程 能 力 成 熟 度 模型 的 相关 内 容 
“Capability Maturity Model”， 这 也 许可 以 激发 你 对 相关 探讨 的 灵感 。 
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BR “ 不 成 熟 ” 公 司 的 解释 

“不 成 熟 ”并 不 表示 公司 必定 会 失败 ， 而 是 指 公司 取得 成 功 的 变数 很 大 。 相 
较 于 成 熟 的 公司 而 言 ， 这 样 的 公司 更 依赖 运气 来 取得 成 功 。 其 项 目的 成 功 
也 取决 于 那些 碰巧 数据 分 析 思 维和 天生 敏锐 的 个 人 所 付出 的 巨大 努力 。 不 成 
熟 的 公司 可 能 会 大 规模 地 应 用 不 那么 复杂 的 数据 科学 解决 方案 ,或 者 小 规 
模 地 应 用 复杂 的 数据 科学 解决 方案 ， 却 很 少 能 大 规模 地 应 用 复杂 的 数据 科 
学 解决 方案 。 











中 等 成 熟 度 的 公司 会 雇用 训练 有 素 的 数据 科学 家 ， 也 会 雇用 理解 数据 科学 基本 原则 的 业务 
经 理 与 其 他 利益 相关 者 。 这 两 方 都 非常 请 楚 如 何 用 数据 科学 解决 商业 问题 ， 且 都 会 参与 能 
直接 解决 商业 问题 的 解决 方案 的 设计 与 实施 。 
成 熟 度 最 高 的 公司 会 持续 改进 其 数据 科学 流程 (而 不 只 是 解决 方案 )。 这 些 公司 的 高 管 不 
断 挑战 数据 科学 团队 ， 以 逐步 向 其 灌输 能 够 使 其 解决 方案 更 好 地 与 商业 问题 保持 一 致 的 
流程 。 同 时 他 们 也 会 意识 到 ， 比 起 明年 才能 完成 的 理论 上 的 最 优 方案 ， 选 择 今天 就 能 实 
现 的 次 优 方案 才 是 务实 的 做 法 。 公 司 内 的 数据 科学 家 也 会 自信 地 认为 ， 在 提议 公司 通过 
投资 改进 数据 科学 过 程 时 ， 他 们 的 建议 会 得 到 开明 的 管理 层 的 考虑 。 这 并 不 是 说 每 个 这 
样 的 要 求 都 会 得 到 满足 ， 但 是 该 提案 将 根据 其 在 业务 背景 中 的 优点 受到 评估 。 
数据 科学 既 非 运 营 亦 非 工 程 
把 数据 科学 成 熟 度 与 软件 工程 的 能 力 成 熟 度 模型 相 类 比 其 实 不 太 恰 当 ， 因 为 
这 样 的 类 比 可 能 流 于 表面 。 那 些 适用 于 软件 工程 ， 甚 至 适用 于 制造 或 运营 的 
流程 ， 在 数据 科学 领域 并 不 奏效 。 而 且 ， 这 样 的 做 法 可 能 会 让 优秀 的 数据 科 
学 家 愤然 离 去 ， 而 管理 者 可 能 还 不 知道 原因 。 解 决 问题 的 关键 是 要 理解 数据 
科学 流程 和 做 好 数据 科学 工作 的 方法 ， 并 努力 建立 一 致 性 ， 努 力 获 取 支 持 。 
记 住 ， 比 起 工程 和 制造 ， 数 据 科 学 更 像 研发 。 举 一 个 具体 的 例子 ， 管 理 层 必 
须 及 早 并 经 常 持续 提供 资源 以 对 数据 科学 项 目 进行 可 靠 评 估 。 有 时 这 涉及 购 
买 无 法 通过 其 他 方法 获取 的 数据 。 这 还 通常 涉及 分 配 工程 资源 来 支持 数据 科 
学 团队 。 反 过 来 ， 数 据 科学 团队 应 该 尽力 向 管理 层 提供 尽 可 能 与 实际 商业 问 
题 相 匹配 的 评估 。 










































































举 一 个 具体 例子 ,试想 不 同 成 熟 度 的 公司 会 如 何 处 理 电 信用 户 流失 问题 。 


。 在 不 成 熟 的 公司 里 ,擅长 分 析 的 员工 (有 可 能 ) 会 根据 他 们 在 客户 流失 管理 方面 的 直觉 ， 
实施 临时 拼凑 的 解决 方案 。 这 样 的 方案 可 能 奏效 ， 也 可 能 失败 。 不 成 熟 的 公司 很 难 评估 
不 同方 法 的 效果 ， 也 无 法 判断 自己 的 方案 是 否 接 近 最 优 。 

中 等 成 熟 的 公司 会 在 尽 可 能 模拟 实际 商业 环境 的 条 件 下 ， 用 定义 明确 的 框架 来 测试 不 同 
的 备 选 方案 (比如 ， 在 试验 平台 上 运行 最 近 的 生产 数据 ， 比 较 不 同方 法 的 效果 )， 然 后 
仔细 考虑 其 中 的 成 本 和 收益 。 
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。 高 度 成 熟 的 公司 可 能 会 用 和 中 等 成 熟 的 公司 完全 相同 的 方法 来 判断 最 有 可 能 离开 的 用 
户 ， 甚 至 判断 离开 后 会 使 公司 蒙受 最 大 期 望 损失 的 用 户 。 他 们 还 会 努力 实现 整个 流程 ， 
收集 必要 数据 ， 判 断 激励 的 效果 ， 从 而 找 出 受到 激励 后 能 带 来 最 大 期 望 价值 提升 ( 相 比 
不 受到 激励 ) 的 用 户 。 这 样 的 公司 可 能 还 会 把 这 样 的 程序 融入 用 来 评估 不 同 激励 策略 或 
不 同 参数 〈 如 不 同 的 折扣 ) 的 实验 和 /或 优化 框架 。 

虽然 对 数据 科学 成 熟 度 进行 坦率 的 自我 评估 并 不 简单 ， 但 是 关键 的 是 ， 要 充分 利用 当前 的 

能 力 ， 并 进一步 提高 自己 的 能 力 。 
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不 能 简明 地 解释 一 件 事 ， 说 明 你 对 它 理 解 得 不 够 。 
一 一 爱 因 斯 坦 


对 数据 科学 实践 最 好 的 描述 是 分 析 工 程 和 探索 的 结合 。 商 业 中 会 存在 我 们 需要 解决 的 问 
题 ， 而 该 问题 很 少 能 直接 与 基础 的 数据 挖掘 任务 相对 应 。 我 们 通常 会 从 现成 的 工具 入 手 ， 
把 该 问题 分 解 为 我 们 能 够 解决 的 子 问题 。 至 于 那些 我 们 不 知道 能 解决 到 什么 程度 的 问题 ， 
则 需要 通过 数据 挖掘 和 评估 来 观察 。 如 果 这 一 方法 不 奏效 ， 那 么 可 能 需要 用 完全 不 同 的 方 
法 继续 尝试 。 整 个 过 程 中 ， 我 们 既 可 能 会 发 现 有 助 于 解决 问题 的 知识 ， 也 可 能 会 发 现 一 些 
意 想不到 的 东西 ， 进 而 引导 我 们 取得 其 他 重要 成 功 。 

在 考虑 应 用 数据 分 析 方 法 解决 商业 问题 时 ， 分析 工 程 和 探索 缺 一 不 可 。 缺 少 分 析 工 程 的 结果 
是 ， 数 据 挖掘 的 结论 很 可 能 无 法 用 于 解决 商业 问题 。 而 如 果 没 有 将 整个 过 程 视 作 一 个 探索 发 
现 过 程 ， 常 常会 导致 企业 无 法 恰当 地 部 署 管理 、 激 励 和 投资 ， 进 而 导致 整个 项 目 失败 。 


14.1 数据 科学 的 基本 概念 


里 解 和 接受 数据 科学 的 基本 概念 ， 会 使 分 析 工 程 和 探索 发 现 更 加 系统 化 ， 更 有 可 能 取得 成 
功 。 本 书 中 介绍 了 一 系列 最 重要 的 基本 概念 。 我 们 将 其 中 一 部 分 概念 直接 作为 章节 标题 ， 
而 其 他 概念 则 在 讨论 过 程 中 自然 而 然 地 介绍 到 了 (并 不 一 定 标记 为 基本 概念 )。 从 设想 数 
据 科学 如 何 改进 商业 决策 ， 到 应 用 数据 科学 技术 ， 再 到 部 署 结 果 以 改进 决策 的 过 程 ， 这 些 
概念 贯穿 于 整个 过 程 之 中 。 这 些 概念 也 可 以 支持 许多 商业 分 析 。 


基本 概念 大 体 可 以 分 为 以 下 三 种 。 
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(1) 关于 如 何 将 数据 科学 应 用 于 企业 和 竞争 格局 的 一 般 概念 ， 包 括 如 何 吸引 、 构 建 和 培养 数 
据 科学 团队 ， 如 何 利 用 数据 科学 带 来 竞争 优势 ， 如 何 保持 竞争 优势 ， 以 及 做 好 数据 科学 
项 目的 战术 原则 。 


(2) 数据 分 析 式 思维 的 一 般 方法 有 助 于 我 们 收集 合适 的 数据 、 构 想 合适 的 方法 。 这 些 概 念 包 
含 数据 挖掘 流程 、 各 种 高 层次 的 数据 科学 任务 的 集合 ， 以 及 如 下 所 述 的 原则 。 


。 在 整个 数据 挖掘 流程 中 ， 数 据 科学 团队 都 应 说 记 亟待 解决 的 问题 和 使 用 场景 。 

。 数据 应 被 视 作 资产 ， 因 此 我 们 应 谨慎 考虑 对 其 进行 投资 ， 以 充分 利用 该 资产 。 

。 期 望 值 框架 有 助 于 构造 商业 问题 。 它 可 以 让 我 们 看 到 商业 问题 中 包含 的 数据 挖 扎 问 
题 ， 以 及 商业 环境 带 来 的 成 本 、 收 益 和 约束 。 

。 泛 化 能 力 和 过 拟 合 : 如 果 过 度 仔 细 地 观察 数据 ， 那 么 总 能 发 现 其 中 的 模式 。 但 是 我 
们 希望 这 些 模式 也 能 推广 到 新 数据 中 。 

。 把 数据 科学 应 用 到 结构 良好 的 问题 中 或 探索 性 数据 挖掘 中 时 ， 需 要 在 数据 挖掘 流程 
的 不 同 环节 付出 不 同 的 努力 。 


(3) 从 数据 中 实际 获取 知识 的 一 般 概念 。 这 些 概念 也 是 大 量 数据 科学 技术 的 基础 ， 包 括 以 下 


几 条 : 


。 识别 富 信息 属性 ， 即 与 我 们 关注 的 未 知 量 相关 或 能 提供 其 相关 信息 的 属性 ; 
。 用 数值 函数 模型 拟 合 数据 : AEB 〈 函 数 )， 并 根据 它 选 定 一 系列 参数 ; 
。 对 模型 复杂 度 进行 必要 的 控制 ， 在 泛 化 能 力 和 过 拟 合 之 间 找 到 平衡 点 ; 

。 计算 数据 所 描述 的 对 象 之 间 的 相似 度 。 


我 们 发 现 数据 科学 的 基本 概念 同样 也 是 许多 数据 科学 策略 、 任 务 、 算 法 和 流程 的 基础 。 本 
书 反 复 强 调 ， 这 些 概念 不 仅 能 帮助 我 们 进一步 理解 数据 科学 的 理论 和 实践 ， 还 能 帮助 我 们 
更 加 全 面 地 理解 数据 科学 的 方法 和 技术 ， 因 为 这 些 方法 和 技术 往往 就 是 一 条 或 几 条 基本 原 
则 的 特定 实例 。 


我 们 知道 ， 用 期 望 值 框架 构造 商业 问题 ， 有 助 于 将 问题 分 解 成 我 们 知道 如 何 处 理 的 数据 科 
学 任务 ， 这 一 点 在 多 种 商业 问题 中 都 适用 。 


在 从 数据 中 获取 知识 时 ， 我 们 发 现 ,“ 判 断 两 个 由 数据 描述 的 对 象 之 间 的 相似 性 ”这 一 基 
本 概念 得 到 了 直接 应 用 ， 比 如 寻找 与 最 佳 客户 最 为 相似 的 客户 。 这 条 概念 既 可 以 通过 最 近 
邻 方法 用 于 分 类 和 回归 ， 也 是 聚 类 ( 即 对 数据 对 象 进行 无 监督 分 组 ) 的 基础 。 它 还 是 根据 
查询 语句 寻找 最 相关 文档 的 基础 ， 也 是 不 止 一 种 常用 的 推荐 方法 的 基础 (比如 ， 把 用 户 和 
电影 放 在 同一 个 “品味 空间 ”中 ， 然 后 寻找 与 某 个 用 户 最 为 相似 的 电影 )。 

说 到 度量 ， 我 们 就 想到 提升 度 的 概念 。 提 升 度 被 用 来 度量 在 多 大 程度 上 特定 模式 比 随机 情况 更 
有 可 能 出 现 。 在 数据 科学 中 ， 这 一 概念 在 对 多 种 模式 进行 评 佑 时 经 常 出 现 ， 比 如 通过 计算 目标 
群体 中 的 提升 度 来 评估 精准 广告 的 算法 ， 比 如 判断 支持 或 反对 某 结论 的 证 据 的 权重 ， 再 比如 判 
断 某 种 重复 出 现 的 共 现 关系 是 有 意义 的 ， 还 是 仅仅 因为 共 现 关系 中 的 元 素 本 身 都 很 高 频 。 
理解 基本 概念 还 有 助 于 促进 企业 利益 相关 者 和 数据 科学 家 之 间 的 交流 。 这 不 仅 是 因为 术语 
共通 ， 更 是 因为 双方 对 彼此 的 理解 加 深 了 。 我 们 不 会 再 错过 讨论 中 的 重要 方面 ， 而 会 深入 
挖掘 并 提出 问题 ， 以 揭示 原来 极 可 能 被 忽略 的 重要 方面 。 









































































































































举 个 例子 ， 假 设 你 的 投资 公司 打算 投资 一 家 提供 个 性 化 网 络 新 闻 服 务 的 数据 科学 公司 。 你 
想 知 道 这 种 个 性 化 新 闻 的 实现 方法 ， 而 对 方 声称 自己 使 用 了 支持 向 量 机 。 再 假设 本 书 中 没 
有 讲 过 支持 向 量 机 ， 而 你 的 数据 科学 知识 仍 足 以 阻止 你 轻易 认同 对 方 的 答案 ， 而 是 胸 有 成 
竹 地 继续 问 :“ 那 是 什么 ?” ”如 果 对 方 真 的 了 解 这 项 技术 ， 就 会 根据 基本 原则 做 出 一 些 解 
RE 〈 像 第 4 章 一 样 )。 你 现在 可 以 接着 问 :“ 你 们 要 用 什么 训练 数据 ? ”这 个 问题 不 仅 会 给 
对 方 的 数据 科学 家 留 下 深刻 印象 ， 还 能 够 判断 对 方 的 所 作 所 为 是 可 靠 的， 还 是 仅 把 “数据 
科学 ” 当 作 障 眼 法 。 你 可 以 继续 思考 :“ 根 据 这 些 数 据 构造 的 预测 模型 (不管 是 什么 模型 ) 
是 否 能 解决 他 们 的 商业 问题 ? ”然后 你 可 以 继续 问 他 们 能 否 能 找到 此 类 问题 所 需 的 可 靠 的 
的 训练 数据 ， 等 等 。 


14.1.1 将 基本 概念 应 用 于 新 问题 : 挖掘 移动 设备 数据 


我 们 反复 强调 过 ， 只 要 把 数据 科学 想 成 概念 、 原 则 和 一 般 方法 的 集合 ， 就 能 更 加 广泛 地 理 
解数 据 科学 活动 ， 并 更 加 成 功 地 将 数据 科学 应 用 到 新 商业 问题 中 。 请 考虑 以 下 的 新 示例 。 


近期 (在 撰写 本 书 时 )， 消 费 者 的 线 上 活动 开始 显著 地 从 传统 计算 机 转移 到 种 类 更 多 的 移 
动 设备 上 。 许 多 原本 研究 如 何 通 过 台式 机 触 达 用 户 的 企业 ， 如 今 开始 争 相 学 习 通 过 移动 设 
备 触 达 用 户 ， 比 如 通过 智能 手机 、 平 板 电 脑 ， 以 及 随 着 Wi-Fi 的 普及 而 愈 发 常见 的 笔记 本 
电脑 。 虽 然 我 们 不 会 讨论 该 问题 中 的 复杂 细节 ， 但 在 我 们 看 来 ， 拥 有 数据 分 析 思 维 的 人 应 
该 能 注意 到 ， 移 动 设备 提供 了 一 种 新 型 数据 ， 而 这 种 数据 的 影响 力 目前 仍 未 被 充分 开发 。 
尤其 是 ， 移 动 设备 会 在 其 定位 信息 方面 与 数据 产生 联系 。 

比如 ， 在 移动 广告 生态 系统 中 ， 根 据 个 人 隐私 设置 ， 移 动 设备 可 能 会 把 我 的 实际 GPS 定位 
广播 给 想 把 我 作为 广告 、 每 日 特惠 或 其 他 促销 活动 的 目标 用 户 的 企业 。 即 使 我 不 广播 我 的 
GPS 定位 ， 我 的 设备 也 会 广播 我 现在 使 用 的 网 络 的 IP 地 址 ， 而 这 通常 也 会 包含 定位 信息 。 


如 何 使 用 此 类 数据 ?让 我 们 来 应 用 基本 概念 。 如 果 不 想 仅 限于 探索 性 数据 分 析 ， 就 必须 根 
据 具体 的 商业 问题 进行 考虑 。 有 些 企业 可 能 面临 同样 的 问题 ,并且 能 够 关注 其 中 的 一 到 两 
个 。 而 企业 家 或 投资 者 则 可 以 借鉴 多 个 其 他 企业 或 客户 最 近 面 临 的 各 种 问题 。 我 们 来 选 一 
个 与 这 些 数据 相关 的 问题 。 

广告 商 在 当今 世界 会 面临 这 样 的 问题 : 移动 设备 多 种 多 样 ， 而 一 个 特定 用 户 的 行为 可 能 会 
分 散记 录 在 不 同 设备 中 。 在 台式 机 时 代 ， 只 要 广告 商 发 现 潜 在 用 户 ， 他 们 就 能 通过 用 户 的 
浏览 器 cookie 或 设备 ID 采取 相应 的 行动 ， 比 如 展示 精准 广告 。 但 在 移动 设备 生态 系统 中 ， 
用 户 活动 分 散 于 多 个 设备 ， 如 果 通 过 一 个 设备 发 现 了 潜在 客户 ， 那 么 如 何 通 过 他 的 其 他 设 
备 对 其 展示 精准 广告 呢 ? 

一 种 方法 是 用 定位 数据 将 可 能 属于 同一 个 用 户 的 其 他 设备 筛选 出 来 。 如 果 我 们 能 刻画 出 某 
个 移动 设备 的 位 置 访问 行为 ， 就 可 以 排除 大 部 分 可 能 的 备 选项 。 想 必 一 个 人 的 智能 手机 的 
定位 信息 应 该 会 与 其 笔记 本 电脑 的 定位 信息 非常 相似 ， 在 考虑 到 所 使 用 的 Wi-Fi 地 址 时 尤 
其 如 此 。' 因此 ， 我 们 可 以 利用 评估 数据 项 相似 性 的 知识 〈 见 第 6 章 )。 




















































































































































































































































































































TE 1: 如 果 担 心 隐私 泄露 ， 那 么 可 以 对 这 些 数 据 做 匿名 化 处 理 。 稍 后 将 讨论 更 多 细 方 。 
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在 数据 理解 环节 ， 我 们 需要 决定 如 何 确切 地 表示 用 户 的 设备 及 其 定位 。 暂 时 放下 算法 和 应 
用 的 细节 ， 转 而 考虑 基本 概念 ， 我 们 就 会 发 现 ， 尽 管 本 例 与 文本 完全 无 关 ， 但 文本 挖掘 示 
il 〈 见 第 10 章 ) 的 问题 定义 中 出 现 的 概念 却 非 常 适 用 于 本 例 。 在 挖掘 文本 数据 时 ， 我 们 
常常 会 忽略 文本 的 结构 ， 比 如 语序 ， 而 单纯 把 每 篇 文档 视 作 来 自 一 个 可 能 很 庞大 的 词汇 表 
的 单词 的 集合 。 这 样 的 思路 也 可 以 应 用 于 本 例 。 显 然 ， 一 个 人 访问 的 位 置 存 在 重要 的 结 
构 ， 比 如 访问 顺序 ， 但 对 数据 挖掘 来 说 ， 最 简单 的 策略 往往 就 是 最 好 的 。 类 比 第 10 章 探 
讨 的 “ 词 袋 ”表示 法 ， 我 们 先 假设 每 个 设备 都 是 一 个 “定位 袋 ”。 

如 果 要 找 同一 个 用 户 的 其 他 设备 ， 不 妨 应 用 文本 中 的 TFIDF 概念 。 在 专注 于 寻找 同一 用 户 
的 不 同 设备 的 相似 性 计算 中 ， 使 用 者 众多 的 Wi-Fi 地 址 (比如 华盛顿 广场 公园 转角 处 的 星 
巴克 ) 不 太 可 能 提供 很 多 信息 ， 因 此 这 样 的 地 址 的 IDF 分 值 较 低 [可 以 把 这 里 的 “D” 想 
成 “Device”( 设 备 ) ， 而 不 是 “Document” (文档 )] 。 另 一 种 极端 情况 则 是 ， 由 于 许多 人 
家 中 的 Wi-Fi 连接 的 设备 数 较 少 ， 因 而 更 能 区 分 同一 用 户 的 不 同 设备 ， 而 定位 的 TFIDF 也 
能 提升 这 些 位 置 在 相似 性 计算 中 的 重要 性 。 两 种 极端 情况 之 间 的 一 个 例子 是 办 公 室 Wi-Fi 
网 络 ， 其 IDF 值 也 会 处 于 两 者 之 间 。 


如 果 我 们 像 第 10 章 搜 索 超 士 音乐 家 的 示例 一 样 ， 在 TFIDF 定义 上 应 用 相似 性 ， 用 基于 定 
位 袋 的 TFIDF 表示 法 作为 设备 的 画像 ， 那 么 就 可 以 寻找 与 已 识别 为 目标 的 设备 最 为 相似 
的 设备 了 。 假 设 我 的 笔记 本 电脑 就 是 已 识别 为 目标 的 设备 ， 它 曾 连接 过 我 家 的 Wi-Fi 网 络 
和 我 办 公 室 的 Wi-Fi 网 络 ， 同 样 连 接 过 这 两 个 网 络 的 移动 设备 有 我 的 手机 、 平 板 电脑 ， 还 
有 我 妻子 、 几 个 朋友 和 同事 的 一 些 移动 设备 〈 但 这 些 设 备 在 其 中 一 个 Wi-Fi 网 络 上 的 TF 
值 会 低 于 我 的 设备 )。 因 此 ， 我 的 手机 、 平 板 电脑 很 可 能 和 我 的 笔记 本 电脑 非常 相似 (可 
能 最 为 相似 )。 如 果 广 告 商 认为 我 的 笔记 本 电脑 很 适合 投放 某 支 广告 ， 那 么 根据 以 上 推断 ， 
我 的 手机 和 平板 电脑 也 同样 如 此 。 


本 例 的 意图 不 在 于 明确 地 找到 不 同 移动 设备 的 对 应 用 户 *。 本 例 展示 了 一 个 概念 性 工具 包 是 
如 何 帮 助 考虑 一 个 全 新 问题 的 。 一 旦 这 些 思维 得 到 概念 化 ， 数 据 科 学 家 将 应 用 我 们 讨论 过 
的 许多 概念 例如 如 何 评估 替代 实施 方案 )， 深 入 研究 真正 有 效 的 方法 以 及 如 何 充 实 和 扩 


展 这 些 想 法 。 


14.1.2 ”改变 对 商业 问题 解决 方案 的 思考 方式 

本 例 同 时 也 提供 了 对 另 一 个 重要 基本 概念 的 具体 说 明 (即使 经 过 这 么 多 页 的 详细 介绍 ， 我 
们 也 讲 不 完 它们 )。 一 种 普遍 情况 是 ， 在 数据 挖掘 流程 中 的 业务 理解 /数据 理解 环节 中 ， 
“问题 是 什么 ”的 概念 变 成 了 “我 们 到 底 能 对 数据 做 什么 ”。 这 个 转变 往往 很 细微 ， 但 我 们 
必须 (BD) 关注 这 个 转变 。 为 什么 ?因为 所 有 利益 相关 者 都 没有 参与 数据 科学 问题 的 定 
义 过 程 。 如 果 我 们 忘记 问题 已 经 发 生 转 变 (尤其 是 转变 非常 细微 时 ) 再 往 下 进行 就 会 遇 到 
阻力 。 而 这 种 阻力 可 能 仅仅 是 由 于 误解 而 产生 的 ! 更 严重 的 是 ， 我 们 可 能 会 认为 这 种 阻力 
是 由 于 固执 而 产生 的 ， 因 而 引发 不 愉快 ， 最 终 导致 项 目 失 败 。 

回头 继续 考虑 选择 目标 移动 设备 的 示例 。 人 敏锐 的 读者 可 能 会 说 :“ 等 等 ， 我 们 一 开始 要 找 
的 是 使 用 不 同 设备 的 同一 用 户 。 而 我 们 通过 设备 的 定位 信息 找到 了 非常 相似 的 用 户 。 我 不 

















































































































































































































注 2: 但 这 仍 是 最 杰出 的 一 家 移动 广告 公司 所 实现 的 真实 解决 方案 的 精髓 。 











否认 这 些 相似 用 户 的 集合 中 很 可 能 包含 同一 用 户 〈 比 我 能 想到 的 任何 替代 方案 更 可 能 ) 但 
这 与 在 不 同 设备 上 查找 同一 用 户 是 不 同 的 。” 这 个 读者 设 说 错 。 在 问题 定义 环节 ， 问 题 出 
现 了 轻微 的 改变 。 现 在 我 们 把 识别 同一 用 户 概率 化 了 : 虽然 具有 高 度 相 似 的 位 置 画像 的 一 
些 设备 很 有 可 能 属于 同一 用 户 ， 但 是 我 们 不 能 完全 确定 这 一 点 。 我 们 必须 清楚 这 一 点 ， 并 
且 要 跟 利 益 相关 者 交代 明白 。 

事实 证 明 ， 在 进行 精准 广告 或 促销 时 ， 这 样 的 改变 能 被 所 有 利益 相关 者 接受 。 回 想 一 下 评 
估 数 据 挖掘 解决 方案 的 成 本 /收益 框架 ( 见 第 7 章 )， 显 然 ， 对 许多 促销 活动 来 说 ， 把 假 
阳性 个 体 选 为 目标 的 成 本 ， 会 比 选中 真 阳 性 个 体 的 收益 低 一 些 。 而 且 ， 如 果 在 促销 中 每 次 
“ 误 选 ”都 能 碰巧 选 到 兴趣 相同 的 其 他 用 户 的 话 ， 那 么 实际 上 许多 促销 方 很 乐于 “ 误 选 "。 
我 的 妻子 、 好 朋友 和 一 些 同 事 与 我 的 品味 和 兴趣 相似 ， 是 很 好 的 促销 目标 1 ” 


14.2 ”数据 做 不 到 的 : 圈 中 人 回顾 


本 书 关注 的 是 通过 加 强 数据 驱动 决策 ， 我 们 如 何 、 为 何以 及 何 时 能 从 数据 科学 中 获取 商业 
价值 。 我 们 还 需要 考虑 数据 科学 与 数据 驱动 的 决策 的 局 限 性 。 

有 些 事情 是 计算 机 擅长 的 ， 有 些 则 是 人 类 擅长 的 ， 而 这 两 者 往往 不 尽 相 同 。 比 如 ， 人 类 更 
擅长 从 全 世界 的 所 有 东西 中 区 分 出 一 些 相关 联 的 方面 ， 并 从 中 收集 数据 来 支持 特定 任务 。 
而 计算 机 则 更 擅长 从 包括 大 量 (可 能 ) FASS BEATS A Ha TP Oia He, DAA 
通过 量化 变量 相关 性 来 预测 目标 。 

《纽约 时 报 》 社 论 版 专栏 作家 David Brooks 撰写 过 一 篇 优秀 的 文章 ， 题 为 


“What Data Can’t Do” (Brooks, 2013) 。 如 果 你 打算 用 神奇 的 数据 科学 来 解决 
问题 ， 那 么 不 妨 读 一 读 这 篇 文章 。 
















































































数据 科学 是 人 类 智慧 和 计算 机 技术 的 明智 组 合 ， 能 做 到 两 者 中 任何 一 方 不 能 单独 做 到 的 事 
情 。( 所 以 要 当心 那些 夸 下 海口 的 工具 供应 商 ! ) 第 2 章 介绍 的 数据 挖掘 流程 有 助 于 指导 
人 类 和 计算 机 的 这 种 组 合 ， 而 该 过 程 所 引入 的 结构 强调 人 类 之 间 的 早期 交互 ， 从 而 确保 了 
数据 科学 方法 围绕 着 正确 的 问题 应 用 。 检 查 数据 挖掘 流程 也 能 说 明 ， 人 际 互动 不 仅 在 任务 
选择 和 问题 定义 环节 起 关键 作用 。 如 第 2 章 所 讨论 的 ， 人 类 的 创造 力 、 知 识 和 常识 发 挥 作 
用 的 一 个 环节 是 选择 正确 的 数据 进行 挖掘 ， 而 这 一 环节 (特别 是 券 虑 它 的 重要 性 时 ) 在 数 
据 挖 掘 的 讨论 中 经 常 被 包 略 。 


人 际 互动 也 是 评估 环节 的 关键 。 合 适 的 数据 与 数据 科学 技术 的 组 合 能 出 色 地 选 出 将 客观 标准 
最 优化 的 模型 。 而 只 有 人 类 能 分 辨 对 于 特定 问题 而 言 ， 什 么 是 最 优化 的 最 佳 客观 标准 。 这 涉 
及 大 量 人 类 的 主观 判断 ， 因 为 通常 真正 的 最 优化 标准 是 无 法 度量 的 。 因 此 人 类 必须 尽 可 能 找 
出 最 好 的 替代 标准 ， 并 且 牢 记 这 些 决 定 ， 因 为 它们 可 能 是 模型 部 署 时 的 风险 来 产 。 然 后 ， 我 














注 3: Crandall 等 人 (2010) 在 《美国 国家 科学 院 院 刊 》 上 发 表 的 文章 表明 ， 人 与 人 之 间 的 地 理 共 现 情况 能 
在 很 大 程度 上 表明 两 人 是 否 是 好 友 :“ 如 果 两 个 人 会 在 儿 乎 相同 的 时 间 出 现在 几 个 特定 地 点 ， 那 么 这 
两 人 就 有 很 高 的 条 件 概率 在 社交 网 络 中 存在 直接 关系 。 这 意味 着 ,即使 是 因为 地 理 相似 性 而 出 现 的 “ 误 
选 ， 也 在 社交 网 络 定位 中 存在 一 些 优势 。 这 一 点 在 营销 中 非常 有 效 (Hill 等 ，2006) 。 
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们 需要 仔细 地 、 有 时 有 创造 力 地 关注 最 终生 成 的 模型 或 模式 是 否 真 的 能 解决 问题 。 

我 们 还 要 记 住 ， 要 应 用 数据 科学 技术 的 数据 是 包含 人 类 决策 的 某 个 过 程 的 产物 。 我 们 要 握 
弃 “ 数 据 代表 客观 真理 ”的 想法 。 数据 包含 了 设计 数据 采集 系统 的 人 的 信念 、 目 的 、 偏 见 
和 语言 用 法 。 而 数据 的 含义 则 会 受到 我 们 自身 信念 的 影响 。 

考虑 以 下 简单 示例 : 许多 年 前 ， 本 书 的 两 位 作者 以 数据 科学 家 的 身份 在 最 大 的 电信 公司 之 
一 共事 ， 彼 时 的 无 线 业 务 出现 了 严重 的 欺诈 问题 ， 我 们 把 数据 科学 方法 应 用 于 包括 手机 
使 用 、 社 会 呼叫 模式 、 访 问 地 址 等 的 海量 数据 (Fawcett & Provost, 1996, 1997) 进行 分 析 。 
检测 坎 诈 行为 的 模型 中 一 个 看 似 表现 良好 的 部 分 表明 ,“ 从 0 号 基站 打 来 的 用 户 的 欺诈 风 
险 显 著 增 大 ”。 这 一 点 通过 谨慎 的 保留 验证 得 到 了 证 明 。 所 幸 (在 本 例 中 )， 我 们 进行 了 良 
好 的 数据 科学 实践 ， 在 评估 环节 进行 了 模型 的 领域 知识 验证 。 我 们 很 难 理解 模型 的 这 一 部 
分 , 因为 尽管 有 许多 基站 都 显示 欺诈 概率 上 升 ”但 0 号 基站 的 表现 最 为 “突出 ”。 而 且 , 其 
他 基站 出 现 这 种 情况 很 合理 ， 因 为 只 要 查 一 下 它们 的 位 置 就 会 找到 说 得 通 的 理由 ， 比 如 该 
基站 位 于 犯罪 高 发 地 区 。 而 如 果 我 们 查询 0 号 基站 的 相关 信息 ， 却 会 发 现 什 么 都 查 不 到 ， 
它 甚 至 不 在 基站 清单 中 。 于 是 我 们 找 顶 尖 数 据 大 师 指点 迷津 一 一 0 号 基站 的 确 不 存在 ， 但 
数据 中 的 确 存 在 许多 从 0 号 基站 打 来 的 欺诈 电话 ! 

长 话 短 说 ， 我 们 对 数据 的 理解 出 错 了 。 简 而 言 之 ， 在 用 户 账户 上 的 欺诈 情况 得 到 解决 前 ， 
通常 要 经 历 打 印 账单 、 寄 出 账单 、 用 户 收 到 账单 、 打 开 、 阅 读 、 采 取 行 动 等 一 系列 过 程 ， 
而 在 这 段 时 间 内 ， 均 诈 活 动 仍 在 继续 。 而 坎 诈 情况 被 检测 出 后 ， 这 些 通话 就 不 应 再 出 现在 
该 用 户 下 个 月 的 账单 中 ， 因 此 我 们 需要 从 计 费 系统 中 将 它们 删除 。 但 这 不 意味 着 它们 被 丢 
弃 了 ， 相 反 ， 它 们 会 被 保存 到 另 一 个 数据 库 中 〈 对 数据 挖 据 工 作 而 言 这 很 幸运 )。 但 不 幸 
的 是 ， 设 计 该 数据 库 的 人 认为 某 些 域 的 数据 设 必要 保留 ， 其 中 之 一 就 是 基站 编号 。 因 此 ， 
当 我 们 为 建立 训练 集 和 测试 集 而 调用 所 有 诈骗 电话 数据 时 ， 所 得 到 的 数据 中 包含 了 这 些 通 
话 。 但 因为 它们 没有 基站 编号 数据 ， 所 以 另 一 个 设计 决策 (有 意 或 无 意 地 ) 导致 这 些 域 被 
填 上 了 0。 因 此， 许多 诈骗 电话 看 似 都 来 自 0 号 基站 | 

这 就 是 第 2 章 介绍 的 “漏洞 ”<。 你 可 能 觉得 它们 很 容易 察觉 ， 实 则 不 然 ， 原 因 如 下 。 试 想 
数 千 万 用 户 在 这 么 多 个 月 内 会 打 多 少 电 话 ， 而 每 通电 话 又 包含 多 少 可 能 的 描述 性 属性 。 我 
们 不 可 能 手动 检验 数据 。 而 且 ， 因 为 电话 按 用 户 分 组 ， 所 以 来 自 0 号 基站 的 电话 不 会 大 量 
聚集 在 一 起 ， 而 是 穿插 在 每 个 用 户 的 其 他 电话 之 中 。 最 后 一 点 ， 可 能 也 是 最 重要 的 一 点 ， 
在 数据 准备 环节 ， 为 了 提高 目标 变量 的 质量 ， 我 们 进行 了 数据 清洗 ， 因 为 有 些 被 标 为 “其 
诈 ” 的 电话 实际 上 并 非 真 的 是 欺诈 电话 。 其 中 大 部 分 可 以 因 发 现 用 户 在 先前 未 出 现 欺诈 的 
时 间 段 打 过 电话 而 洗 清 嫌疑 。 结 果 是 ， 虽 然 来 自 0 号 基站 的 电话 欺诈 概率 上 升 ， 但 这 并 非 
预测 欺诈 的 完美 方法 (而 是 危险 信号 )。 
展示 这 个 小 案例 的 目的 在 于 说 明 :“ 数 据 是 什么 ”只 是 我 们 所 做 的 解释 。 这 个 解释 通常 会 
在 数据 挖掘 流程 中 发 生 改 变 ， 而 我 们 需要 接受 这 种 可 塑性 。 这 个 欺诈 检测 示例 展示 了 对 数 
据 项 解释 的 改变 。 当 发 现 数据 采集 过 程 中 的 偏差 时 ， 我 们 通常 会 改变 对 数据 采样 的 理解 。 比 































































































































































































注 4: 爱好 哲学 的 读者 不 妨 阅读 W. V.O. Quine (1951) 的 经 典 文章 “Two Dogmas of Empiricism”， 作 者 在 
文中 尖锐 批评 了 将 经 验 和 分 析 分 割 开 来 的 理念 。 

注 5: 技术 上 ， 需 要 有 更 多 从 这 些 基 站 播 出 的 电话 性 质 出 现 显 著 变化 ， 模 型 才能 发 挥 最 大 用 处 。 如 果 你 感 兴 
趣 ， 我 们 的 论文 对 此 进行 了 详细 探讨 。 



























































如 ， 如 果 想 对 用 户 行为 建 模 ， 进 而 设计 或 投放 营销 活动 ， 我 们 就 必须 准确 理解 所 要 取样 的 用 
户 群 。 这 一 点 在 理论 上 很 浅显 ， 但 实际 中 它 涉及 对 产生 数据 的 系统 和 业务 进行 深入 分 析 。 
最 后 ， 我 们 需要 能 够 识别 可 以 因数 据 科学 甚至 是 人 类 的 参与 而 增值 的 问题 。 你 可 能 会 问 : 
“我 们 真 的 有 是 够 的 与 手头 要 做 的 决定 相关 的 数据 吗 ? ”我 们 可 能 需要 在 这 个 独特 背景 下 
小 出 非常 高 层次 的 战略 决策 。 数 据 分 析 和 理论 模拟 能 提供 深层 的 见解 ， 但 若 要 做 出 最 高 层 
面 的 决策 ， 决 策 者 必须 凭借 自己 的 经 验 、 知 识 和 直觉 。 这 当然 也 适用 于 战略 决策 ， 比 如 是 
否 要 收购 某 个 公司 。 虽 然 数据 分 析 能 支持 决策 ， 但 毕竟 每 个 情况 都 是 独特 的 ， 因 而 必须 依 
赖 经 验 老 道 的 战略 家 来 做 出 决策 。 

这 种 有 关 独 特 情境 的 想法 应 该 贯彻 到 底 。 举 一 个 极端 的 例子 ， 请 考虑 乔布斯 的 一 句 名 言 : 
“根据 受众 需要 去 设计 产品 其 实 是 非常 难 的 ， 因 为 很 多 情况 下 ， 人 们 并 不 知道 自己 想 要 的 
是 什么 ,而 是 需要 你 展示 给 他 们 看 …… 但 这 不 代表 我 们 不 用 理 皮 用 户 的 意见 ， 而 是 表示 他 
们 很 难 在 从 未 见 过 类 似 事物 的 情况 下 描述 出 他 们 想 要 什么 。” 放 了 眼 未 来 ， 随 着 精细 自动 实 
验 能 力 的 提升 ， 我 们 有 望 可 以 不 再 询问 用 户 的 喜好 和 建议 ， 而 是 通过 观察 得 出 用 户 喜好 和 
建议 。 为 此 ， 我 们 需要 遵循 基本 原则 : 把 数据 视 作 需要 投资 的 资产 。 第 1 章 中 的 Capital 
One 就 是 一 个 范例 : 创造 出 很 多 产品 ， 并 投资 于 数据 与 数据 科学 来 判断 用 户 想 要 哪些 产品 ， 
以 及 每 个 产品 适合 哪些 用 户 ( 即 在 哪些 用 户 身上 是 有 利 可 图 的 )。 


14.3 隐私、 道德 和 挖掘 个 人 数据 


挖掘 数据 ， 尤 其 是 个 人 数据 ， 会 引发 不 容 忽视 的 道德 问题 。 虽 然 新 闻 界 和 政府 部 门 最 近 对 
隐私 和 数据 (尤其 是 线 上 数据 ) 问题 进行 了 大 量 讨 论 ， 但 问题 的 范围 比 这 要 广泛 得 多 。 许 
多 面向 消费 者 的 大 企业 会 采集 或 购买 用 户 的 详细 数据 ， 并 将 其 用 于 本 书 中 所 讨论 的 许多 商 
业 应 用 决策 。 我 们 是 否 会 被 授信 ? 如 果 会 ， 那 么 我 们 的 信用 额度 是 多 少 ? 我 们 会 被 当 作 营 
销 目标 吗 ? 我 们 想 在 网 页 上 看 到 什么 样 的 内 容 ? 我 们 应 该 被 推荐 什么 产品 ? 我 们 是 否 可 能 
转投 对 手 公司 ? 我 们 的 账户 上 是 否 存在 欺诈 情 况 ? 

隐私 和 改善 商业 决策 之 间 的 关系 非常 密切 ， 因 为 愈 发 频繁 的 个 人 数据 使 用 和 愈加 高 效 的 商 
业 决 策 之 间 似乎 存在 直接 关系 。 比 如 ， 多 伦 多 大 学 和 麻 省 理工 大 学 的 研究 员 进行 的 一 项 研 
究 表明 ， 在 欧洲 颁布 严格 的 隐私 保护 法 律 后 ， 线 上 广告 明显 不 如 以 前 有 效 了 。 具 体 来 说 ， 
“被 展示 广告 的 客户 和 未 被 展示 广告 的 客户 之 间 的 购买 意向 的 差异 下 降 了 约 65%， 而 欧洲 
之 外 的 任何 国家 都 没有 出 现 这 种 情况 ”(Goldfarb & Tucker, 2011). 该 现象 不 仅仅 出 现在 线 
上 广告 业 。 如 果 将 个 人 的 传统 数据 加 上 详细 的 社交 网 络 数 据 (比如 谁 与 谁 取得 联系 )， 那 
么 欺诈 检测 (Fawcett & Provost, 1997) 和 目标 市 场 营 销 (Hill 等 , 2006) 的 效率 就 能 大 大 
提高 。 一 般 来 说 ， 收 集 到 的 个 人 数据 越 详 细 ， 相 关 商 业 决 策 的 质量 就 会 越 高 。 越 来 越 少 的 
隐私 和 越 来 越 高 的 企业 业绩 之 间 看 似 有 直接 的 关系 ， 这 从 隐私 和 业务 两 个 视角 (有 时 来 自 
同一 人 ) 同时 引发 了 强烈 的 情绪 。 


该 问题 的 解决 不 但 远 远 超 出 本 书 范围 ， 而 且 极其 复杂 (比如 :“ 匿 名 化 ”要 到 什么 程度 才 
可 以 ? ) 且 多 样 化 。 合 理 进行 隐私 友好 型 数据 科学 设计 的 最 大 阻碍 ， 可 能 是 难以 定义 隐私 。 





















































































































































































































































注 6: 参见 Mayer 和 Narayanan 的 网 站 (http://donottrack.us/bib/#sec_economics) 阅读 对 此 的 批评 ， 以 及 划 
他 研究 者 关于 行为 定向 在 线 广告 的 价值 的 文章 。 
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Daniel Solove 是 关于 隐私 的 世界 权威 ， 其 文章 “A Taxonomy of Privacy” (2006) 的 开头 如 下 : 
隐私 是 一 个 混乱 的 概念 ， 我 们 无 法 明确 其 含义 。 正 如 一 名 评论 员 所 发 现 的 ， 隐 私 
深 受 “含义 乾 炊 ”之 害 。 
Solove 的 文章 接 下 来 用 80 页 的 篇 幅 对 隐私 进行 了 分 类 。Helen Nissenbaum 是 另 一 名 隐私 
方面 的 世界 权威 。 她 最 近 特 别 关注 隐私 和 大 规模 数据 库 〈 及 其 挖掘 ) 的 关系 。 关 于 这 个 主 
题 ， 她 写 了 一 本 书 ，Privacy in Context, it 300 页 (非常 值得 一 读 )。 提 到 这 两 个 人 是 为 
了 强调 ， 隐 私 问题 既 不 易 理 解 ， 也 不 易 处 理 ， 甚 至 不 是 仅 用 数据 科学 教材 的 一 节 或 一 章 就 
能 详细 说 明 的 。 如 果 你 是 数据 科学 家 或 数据 科学 项 目 中 的 企业 利益 相关 者 ， 那 你 就 应 该 关 
注 隐 私 问 题 ， 并 且 花 大 量 时 间 仔 细 考 虑 它 。 


14.4 ”数据 科学 是 否 还 有 更 多 内 容 


虽然 本 书 已 经 很 厚 了 ， 但 我 们 仍 尽 己 所 能 地 选取 了 最 有 助 于 数据 科学 家 和 企业 利益 相关 者 





















































理解 和 交流 数据 科学 的 最 相关 的 基本 概念 。 当 然 ， 本 书 并 没有 包含 数据 科学 的 所 有 基本 概 
念 ， 有 的 数据 科学 家 可 能 会 怀疑 我 们 是 否 选择 了 最 恰当 的 概念 。 但 必须 承认 的 是 ， 本 书包 











含 了 一 些 支撑 着 数据 科学 的 最 重要 的 概念 。 

有 许多 高 级 主题 和 与 之 密切 相关 的 主题 是 根据 本 书 所 提出 的 基本 概念 建立 的 。 这 里 不 会 列 
出 它们 一 一 如 果 你 感 兴 趣 ， 那 么 不 妨 仔 细 研 读 近 期 的 顶级 数据 挖掘 研讨 会 议 中 的 项 目 ， 如 
ACM SIGKDD 数据 挖掘 和 知识 发 现 国际 会 议 ， 或 IEEE 国际 数据 挖掘 会 议 。 这 两 个 会 议 包 
含 顶 级 行业 跟踪 ， 关 广 数 据 科学 在 商业 和 政府 问题 中 的 应 用 。 

关于 在 进一步 探索 时 可 能 会 发 现 的 那 类 话题 ， 我 们 再 举 一 个 具体 的 例子 。 回 忆 数 据 科 学 的 
第 一 条 原则 : 数据 (和 数据 科学 能 力 ) 应 被 视 为 资产 ， 且 应 被 作为 待 选 的 投资 对 象 。 本 书 
逐 层 深入 探讨 了 投资 数据 这 一 概念 。 如 果 我 们 在 数据 科学 项 目 中 明确 地 应 用 “考虑 成 本 效 
益 ” 这 一 一 般 框 架 ， 就 能 产生 新 的 思路 。 


14.5 ”最 后 一 例 : 从 众 包 到 云 包 


互联 网 带 来 的 企业 和 “消费 者 ”的 互通 ， 改 变 了 劳工 经 济 。 基 于 网 络 的 系统 ， 如 亚马逊 的 
Mechanical Turk 和 oDesk 等 ， 促 进 了 一 种 可 以 被 称 为 “ 云 劳 动 ”的 众 包 业务 通过 互联 
网 来 控制 大 量 独 立 承 包 商 。 一 种 与 数据 科学 紧密 相关 的 云 劳动 是 “ 微 外 包 ”: 将 大 量 小 而 
定义 明确 的 任务 外 包 。 微 外 包 与 数据 科学 紧密 相关 ， 因 为 它 改 变 了 数据 投资 的 经 济 条 件 和 
可 行 性 。” 

例如 ， 回 忆 有 监督 建 模 的 应 用 条 件 ( 见 第 2 章 )。 我 们 不 但 需要 准确 定义 目标 变量 ， 而 且 
需要 知道 训练 数据 的 目标 变量 值 (“标签 值 ”)。 有 了 时 我 们 可 以 做 到 前 者 ， 但 手头 却 没有 标 
签 数据 ， 此 时 就 可 以 用 微 外 包 系 统 ( 比 如 Mechanical Turk) 来 标注 数据 。 


比如 ， 广 告 商 想 避免 在 令 人 反感 的 网 页 (比如 那些 包含 仇恨 言论 的 网 页 ) 上 投放 广告 ,但 


















































注 7: 感 兴 趣 的 读者 可 以 访问 Google Scholar, 搜索 “data mining mechanical turk”, 或 含义 更 广泛 的 “human 
computation” ， 寻 找 相关 论文 ， 并 可 以 点 击 前 向 引用 链接 (Cited by) 获取 更 多 信息 。 











他 们 如 何在 数 以 亿 计 的 备 选 网 页 中 找 出 这 些 网 页 呢 ? 让 员工 一 一 检查 的 话 ， 成 本 太 高 了 。 
你 可 能 立刻 会 想到 ， 可 以 用 文本 分 类 方法 〈 见 第 10 章 )， 获 取 网 页 的 文本 ， 并 如 先前 所 
述 ， 用 特征 向 量 对 其 进行 表示 ， 然 后 构造 一 个 仇恨 言论 分 类 器 。 但 很 可 惜 ， 我 们 设 有 仇恨 
言论 网 页 的 代表 性 样本 ， 因 而 没有 训练 数据 。 但 如 果 这 个 问题 足够 重要 *， 我 们 就 应 考虑 投 
资 于 标注 训练 数据 ， 看 看 能 否 构 建 一 个 能 判断 网 页 是 否 包含 仇恨 言论 的 模型 。 
在 获取 标注 训练 数据 的 示例 中 ， 云 劳动 改变 了 对 数据 进行 投资 的 经 济 条 件 。 我 们 可 以 通过 
互联 网 雇用 廉价 劳动 力 ， 以 多 种 方法 获取 数据 。 比 如 ， 我 们 可 以 让 亚马逊 Mechanical Turk 
的 员工 给 网 页 加 上 令 人 反感 与 否 的 标签 ， 来 给 我 们 提供 目标 标签 ， 这 种 方法 比 雇用 学 生 便 
宜 得 多 。 

每 名 经 过 训练 的 实习 生 完 成 该 工作 的 速度 是 每 小 时 250 个 网 页 ， 成 本 为 每 小 时 

15 美元 。 而 将 该 任务 发 布 在 亚 马 示 Mechanical Turk 时 ， 打 标签 的 速度 提升 到 了 

每 小 时 2500 个 网 页 ， 而 总 成 本 却 不 变 。( Ipeirotis 等 ，2010 ) 


问题 是 ， 一 分 钱 一 分 货 ， 低 价 有 时 代表 低 质 量 。 近 5 年 来 ， 出 现 了 大 量 关 于 如 何在 利用 云 
劳动 的 的 同时 保持 质量 不 变 的 研究 。 注 意 ， 给 网 页 加 标签 只 是 用 云 劳动 增强 数据 科学 的 一 
个 例子 。 即 使 在 这 个 案例 研究 中 也 存在 许多 其 他 选择 ， 比 如 用 云 劳动 查找 仇恨 言论 的 正 样 
本 个 体 (Attenberg & Provost, 2010)， 而 不 是 给 我 们 所 提供 的 网 页 加 标签 。 云 劳动 也 可 以 用 
于 在 游戏 式 的 系统 中 找到 当前 模型 出 错 的 地 方 ， 即 “打败 机 器 ”(Attenberg 等 ，2011)。 


14.6 ”最 后 的 话 


20 多 年 来 ， 本 书 的 两 位 作者 一 直 致 力 于 将 数据 科学 应 用 到 实际 商业 问题 中 ， 这 几乎 已 经 成 
为 了 他 们 的 第 二 天 性 。 对 我 们 来 说 ， 掌 握 这 些 明确 的 基本 概念 也 非常 有 用 。 每 次 你 在 思考 过 
程 中 陷入 僵局 时 ， 只 要 想 想 这 些 基 本 概念 ， 就 能 拨 云 见 日 。 像 “ 嗯 ， 先 回顾 一 下 业务 理解 和 
数据 理解 吧 …… 我 们 到 底 要 解决 什么 问题 ”这 样 的 过 程 就 能 解决 许多 问题 ， 比 如 : 是 否决 定 
研究 期 望 值 框架 ， 是 否 要 仔细 考虑 数据 采集 方式 ， 是 否 明确 定义 了 成 本 效益 ， 是 否 要 进一步 
投资 数据 ， 或 是 否 恰当 地 定义 了 该 问题 的 目标 变量 ， 等 等 。 了 解 不 同 的 数据 科学 任务 ， 可 
以 防止 数据 科学 家 用 其 所 掌握 的 一 种 方式 来 应 对 所 有 商业 问题 。 在 考虑 评估 和 用 于 比较 的 
“基线 ”时 ,仔细 考虑 商业 问题 中 的 重要 因素 ， 能 大 大 促进 数据 科学 家 与 利益 相关 者 的 交流 。 
[将 直接 汇报 对 商业 问题 无 意义 的 统计 量 (比如 均 方 误差 ) 与 这 种 方法 对 比 ， 你 就 能 看 出 差 
Feo] 数据 分 析 思 维 不 仅 能 帮助 数据 科学 家 ， 也 能 帮助 所 有 参与 该 过 程 的 人 。 


如 果 你 不 是 数据 科学 家 ， 而 是 一 位 企业 利益 相关 者 的 话 ， 那 么 千 万 别 让 那些 所 谓 的 “数据 
科学 家 ”用 术语 把 你 搞 得 去 里 筋 里 ， 本 书 中 的 概念 加 上 你 自己 的 商业 知识 和 数据 系统 知 
识 ， 能 让 你 理解 80% 其 至 更 多 的 数据 科学 内 容 ， 进 而 提高 你 的 工作 效率 。 在 读 过 本 书后 ， 
如 有 果 你 还 不 明白 某 个 数据 科学 家 说 的 话 ， 那 就 要 当心 了 。 虽 然 数据 科学 中 的 确 存在 大 量 复 杂 
概念 ， 但 优秀 的 数据 科学 家 应 该 能 够 用 本 书 中 的 术语 来 描述 问题 和 解决 方案 的 基本 原理 。 


如 果 你 是 数据 科学 家 ， 那 么 请 接受 我 们 的 挑战 。 仔 细 考 虑 为 什么 你 的 工作 对 业务 有 帮助 ， 
并 且 将 其 展现 出 来 。 
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iE 8: 35 上 现在 令 人 反感 的 网 页 上 这 个 问题 价值 20 亿美 元 (Winterberry Group, 2010). 
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附录 人 


提案 评估 指南 








高 效 的 数据 分 析 思 维 有 助 于 系统 地 评估 潜在 的 数据 挖 据 项目。 本 书 中 的 材料 应 该 已 经 给 你 
提供 了 用 于 评估 数据 挖掘 提案 和 发 现 其 中 的 潜在 不 足 的 必要 背景 ， 这 项 本 领 既 可 以 用 于 对 
自己 的 提案 进行 自我 评估 ， 也 可 以 用 于 评估 公司 内 部 数据 科学 团队 或 外 聘 顾问 的 提案 。 

下 文中 包含 了 一 系列 在 考虑 数据 挖掘 项 目 时 应 想到 的 问题 。 这 些 问 题 根据 第 2 章 详细 介绍 
的 数据 挖掘 流程 设计 ， 是 贯穿 本 书 的 概念 性 框架 。 在 读 过 本 书后 ， 你 应 该 有 能 力 在 概念 上 
把 这 些 问题 应 用 到 新 的 商业 问题 中 。 虽 然 下 文 的 列表 并 非 面 面 俱 到 (本 书本 来 也 没 打算 做 
到 面 面 供 到 )， 但 仍 包含 了 一 些 最 重要 的 问题 。 


本 书 自始至终 关注 的 都 是 数据 科学 项 目 ， 其 重点 是 从 数据 中 挖掘 出 规律 、 模 式 或 模型 ， 而 
这 篇 提案 评估 指南 就 反映 了 这 一 点 。 在 有 的 数据 科学 项 目的 组 织 中 ， 规 律 可 能 并 不 明显 ， 
比如 ， 许 多 可 视 化 项 目 一 开始 并 没有 清楚 地 定义 建 模 目标 。 然 而 ， 数 据 挖掘 流程 能 让 我 们 
将 针对 此 类 项 目的 数据 分 析 思 维 结构 化 一 一 这 些 项 目 比 起 有 监督 数据 挖掘 ， 更 像 无 监督 ; 
据 挖 掘 。 


A.1 业务 和 数据 理解 


。 需要 解决 什么 商业 问题 ? 
。 数据 科学 解决 方案 是 否 适合 解决 本 问题 ?注意 : 有 时 我 们 必须 审慎 地 取 近 似 。 
。 某 个 实例 /示例 对 应 什么 业务 实体 ? 
问题 是 有 监督 的 还 是 无 监督 的 ? 
- 如 果 是 有 监督 的 ， 那 么 
4 是 否 有 目标 变量 ? 
4 如 果 有 ， 是 否定 义 明 确 ? 
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4 思考 其 如 何 取 值 。 


。 属性 是 否定 义 明确 ? 


。 针对 有 监督 分 类 问题 ， 对 目标 变量 建 模 是 否 能 实际 改善 本 商业 问题 ? 或 能 否 改 善 某 个 重 


- 思考 其 如 何 取 值 。 




















要 的 子 问题 ? 如 果 是 后 者 ， 那 么 其 他 子 问题 是 否 也 能 得 到 解决 ? 


。 用 期 望 值 定义 问题 是 否 有 助 于 将 要 解决 的 子 问题 结构 化 ? 
。 如 果 问 题 是 无 监督 的 ,那么 是 否 存在 定义 明确 的 “探索 性 数据 分 析 ” 路 径 ? (也 就 是 说 ， 


分 析 的 方向 是 什么 ? ) 


A.2 ”数据 准备 


获取 变量 值 、 构 造 特征 向 量 并 将 其 编 入 表格 的 做 法 是 否 切 实 可 行 ? 








。 如 果 不 可 行 ， 那么 是 否 存 在 其 他 定义 清晰 明确 的 数据 格式 ?该 格式 是 否 考 虑 了 项 目的 后 


期 阶段 ? (许多 后 期 的 方法 /技术 都 假设 数据 集 是 特征 向 量 形式 。) 


。 如 果 建 模 过 程 是 有 监督 的 ， 那 么 目标 变量 是 否定 义 明确 ?获取 (训练 集 和 测试 集 的 ) H 





标 变 量 值 并 制 表 的 方法 是 否 明 确 ? 





。 如 何 获取 目标 变量 值 ?该 过 程 是否 存 在 成 本 ? 如 果 是 , 那么 提案 中 是 否 包含 了 这 些 成 本 ? 
。 从 总 体 中 获取 的 数据 是 否 与 将 应 用 模型 的 数据 相似 ?如 果 存 在 差异 ， 那 么 提案 中 是 否 注 


明了 选择 性 偏差 ? 是 否 存在 弥补 该 偏差 的 方案 ? 


A.3 建 模 


选择 的 模型 是 否 适用 于 目标 变量 ? 
— 分 类 、 类 概率 估计 、 排 序 、 回 归 、 聚 类 ? 





ia 











。 模型 / 建 模 技术 是 否 满足 任务 的 其 他 要 求 ? 








- 泛 化 能 力 、 理 解 能 力 、 学 习 速度 、 应 用 速度 、 要 求 的 数据 量 、 数 据 类 型 、 缺 失 值 ? 
- 该 建 模 技术 是 否 与 问题 的 先 验 知识 相符 〈 比 如 ， 明 明 是 非 线性 问题 却 要 应 用 线性 
模型 ) ? 





。 是 否 应 该 尝试 多 个 模型 并 进行 比较 (在 评估 阶段 ) ? 
。 针对 聚 类 方法 是 否定 义 了 相似 性 测度 ?该 测度 是 否 对 本 商业 问题 有 意义 ? 


A4 评估 和 部 署 


。 是 否 有 进行 领域 知识 验证 的 计划 ? 


- 领域 专家 或 利益 相关 者 是 否 会 在 模型 部 署 前 检验 模型 ”如果 是 ， 那 么 模型 的 形式 是 
否 易于 他 们 理解 ? 


。 评价 机 制 和 指标 是 否 适用 于 该 业务 问题 ?请 回忆 问题 的 初始 规范 。 


- 是 否 将 经 营 成 本 和 收益 考虑 在 内 ? 
— 针对 分 类 方法 ， 如 何 选 择 分 类 国 值 ? 
- 是 否 直接 应 用 了 概率 估计 ? 
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- 排序 是 否 更 恰当 (比如 ， 对 
— 针对 回归 方法 ， 如 何 评 估 数 








定 预 算 而 言 ) ? 
型 预测 的 质量 ?为 什么 该 方法 适用 于 本 问题 ? 





Tm EH 

















。 评估 阶段 是 否 使 用 了 保留 数据 集 ? 


一 可 以 使 用 交叉 验证 。 

比较 结果 使 用 的 基线 是 什么 ? 

企 本 问题 背景 下 ， 该 基线 为 何 有 意义 ? 
- 是 否 存在 客观 评估 基线 法 的 方案 ? 








。 针对 聚 类 方法 ， 如 何 理解 聚 类 结果 ? 
。 根据 计划 部 署 方案 是 否 能 (最 好 地 ) 解决 本 商业 问题 ? 


。 如 果 需 要 向 利益 相关 者 申请 项 目 经 费 ， 那 么 度量 最 终 (部 署 的 ) 业务 影响 的 方案 是 ? 
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附录 B 
男 一 个 提案 示例 





附录 A 提供 了 用 于 评估 数据 科学 提案 的 一 系列 准则 和 问题 ， 第 13 章 中 展示 了 一 个 用 户 迁 
移 活动 的 提案 示例 ( 见 13.7.1 节 )， 并 指出 了 该 提案 的 不 足 〈 见 13.7.2 7). 


本 书 中 通 篇 使 用 电信 公司 用 户 流失 问题 的 示例 ， 本 章 将 展示 基于 该 问题 的 第 二 个 提案 示例 
及 其 评估 。 


情景 和 提案 


你 在 Green Giant 咨询 公司 (GGC) 得 到 了 一 份 好 工作 ， 管 理 一 个 刚刚 学 会 数据 科学 技能 
的 团队 。GGC 正 准 备 向 TelCo 发 送 一 份 提案 ， 解 决 这 家 全 国 第 二 大 的 无 线 通信 公司 的 用 户 
流失 问题 。 你 团队 里 的 分 析 师 撰写 了 以 下 提案 ,你 在 把 该 提案 呈 给 TelCo 之 前 需要 审核 一 
遍 。 该 提案 是 否 有 不 足 ? 你 有 什么 改进 建议 吗 ? 


通过 有 针对 性 的 激励 来 降低 用 户 流失 一 一 GGC 提案 


我 们 认为 ，TelCo 应 通过 用 户 流失 预测 分 析 ， 测 试 其 控制 用 户 流失 的 能 力 。 其 核 
心思 想 是 先 利 用 用 户 行为 数据 来 预测 用 户 何 时 会 离开 公司 ， 然 后 对 这 些 用 户 有 针 
对 性 地 提供 特殊 激励 ， 从 而 将 他 们 留 在 公司 。 我 们 建议 使 用 以 下 建 模 方法 ， 该 方 
法 用 TelCo 现 有 的 数据 就 可 以 实现 。 


考虑 到 保留 合约 到 期 后 长 时 间 逐 月 续 订 服务 的 用 户 的 问题 ， 我 们 将 模拟 用 户 在 合约 
到 期 后 90 天 内 离开 (或 留 在 ) 公司 的 概率 。 我 们 认为 ，90 天 的 窗口 期 是 预测 用 户 
流失 的 恰当 起 点 ， 从 中 得 到 的 经 验 也 可 以 应 用 于 其 他 流失 预测 问题 。 本 模型 将 根据 
过 去 离开 公司 的 用 户 的 数据 构造 ， 而 流失 概率 则 会 根据 合约 到 期 前 45 天 内 的 数据 进 
行 预测 ， 以 便 给 TelCo 留 出 足够 时 间 向 用 户 提供 优惠 激励 。 我 们 将 通过 构建 集成 树 
型 模型 ( 随机 森林 模型 ) 来 模拟 流失 概率 ， 该 方法 以 精度 高 、 适 用 范围 广 而 知名 。 
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我 们 预计 能 辨别 出 70% 在 90 天 的 窗口 期 内 将 离开 公司 的 用 户 。 这 一 点 将 通过 在 
数据 库 上 运行 模型 来 验证 。 在 与 TelCo 的 利益 相关 者 交流 的 过 程 中 ， 我 们 了 解 
到 ， 所 有 用 户 维持 的 新 程序 都 需要 用 户 维持 副 总 裁 签 字 通 过 。 而 她 指出 ， 她 将 根 
据 自 己 对 本 程序 是 否 有 意义 的 判断 和 公司 中 一 些 用 户 维持 专家 对 本 程序 的 意见 做 
出 决定 。 因 此 ， 我 们 将 给 副 总 裁 和 专家 查看 用 户 维持 模型 的 权限 ， 从 而 使 他 们 能 
够 评估 本 模型 是 否 适 用 以 及 是 否 高 效 。 我 们 提议 ， 每 周 运行 一 次 本 模型 ， 以 估计 
合约 将 在 45 天 内 (上 下 浮动 一 周 ) 到 期 的 用 户 的 流失 概率 。 我 们 将 按 流失 概率 
对 用 户 进行 排序 ， 前 N 名 将 被 作为 目前 激励 的 目标 ，N 的 具体 大 小 要 视 每 周 用 户 
维持 预算 而 定 。 


GGC 提 案 的 不 足 

我 们 可 以 用 对 数据 科学 基本 原则 及 其 他 基本 概念 的 理解 ， 找 出 提案 中 的 不 足 。 附 录 A 提供 

了 一 份 评估 此 类 提案 的 起 步 “ 指 南 ”"， 其 中 包含 许多 主要 问题 。 而 且 ， 本 书本 身 就 可 以 视 

作 一 份 提案 评估 指南 。 下 面 是 Green Giant 提案 中 一 些 最 严重 的 不 足 。 

(1) 该 提案 目前 只 提 到 了 根据 “已 离开 公司 的 客户 ”进行 建 模 。 在 训练 (和 测试 ) 模型 时 
我 们 还 需要 获取 并 未 离开 公司 的 客户 数据 ， 以 便 模型 找到 用 于 区 分 两 者 的 信息 。( 见 
2 章 、 第 3 章 、 第 4 章 、 第 7 章 ) 

(2) 为 什么 要 按 流 失 概 率 从 高 到 低 排 序 ， 而 不 是 在 计算 标准 期 望 值 后 ， 按 期 望 损失 排序 ? 
( 见 第 7 章 、 第 11 章 ) 

(3) 对 最 有 可 能 受 激励 的 积极) 影响 的 用 户 建 模 ， 不 是 更 好 吗 ? ( 见 第 11 章 、 第 12 章 ) 

(4) 如 果 要 按 第 3 条 的 思路 往 下 走 ， 那 么 我 们 可 能 没有 所 需 的 训练 数据 ， 需 要 通过 购买 来 获 
取 数 据 。( 见 第 3 章 、 第 11 章 ) 

注意 ， 目 前 的 提案 很 可 能 只 是 完成 业务 目标 的 第 一 步 ， 但 我 们 必须 讲 清楚 ， 要 注意 观察 我 

们 能 否 准确 估计 流失 概率 。 如 果 能 ， 就 可 以 继续 进行 ， 如 果 不 能 ， 就 需要 重新 考虑 是 否 要 

对 该 项 目 进行 投资 。 

(5) 提案 中 并 未 提 到 评估 模型 的 泛 化 能 力 ( 即 进行 保留 评估 )。 他 们 似乎 要 用 训练 集 进 行 测 
试 (“…… 在 数据 库 上 运行 模型 ……”)。( 见 第 5 BE) 

(6) 提案 中 并 未 定义 ( 提 都 没 提 ) 所 要 使 用 的 属性 ! 这 仅仅 是 一 个 疏忽 吗 ? 还 是 因为 该 团队 
没有 考虑 到 这 一 点 ?他 们 的 计划 是 什么 ? ( 见 第 2 章 、 第 3 章 ) 

(7) 该 团队 如 何 是 估计 出 模型 70% 的 精确 度 的 ? 提案 中 并 未 提 及 他 们 进行 了 初步 研究 ， 也 
没有 对 数据 样本 绘制 学 习 曲 线 ， 也 没有 甚 他 任何 论据 。 因 此 该 声明 感觉 像 是 猜 的 。( 见 
第 2 章 、 第 5 章 、 第 7 章 ) 

(8) 而 且 ， 在 不 讨论 误差 率 或 假 阳 性 、 假 阴性 概念 的 前 提 下 ,， “辨别 出 70% 将 离开 公司 的 用 
户 ” 的 含义 并 不 明确 。 如 果 只 字 不 提 假 阳性 率 ， 那 么 我 完全 可 以 说 每 个 用 户 都 会 离开 公 
司 ， 从 而 使 辨别 率 高 达 100%。 因 此 只 有 在 提 及 假 阳 性 率 的 情况 下 ， 谈 论 真 阳性 率 才 有 
意义 。( 见 第 7 章 、 第 8 章 ) 
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(9) 为 什么 只 选择 一 个 模型 ? 我 们 可 以 用 现代 工具 包 来 方便 地 比较 多 个 模型 在 同一 组 数据 上 
的 效果 。( 见 第 4 章 、 第 7 章 、 第 8 章 ) 

(10) 用 户 维持 副 总 裁 必须 签字 通过 本 程序 ， 并 且 她 指出 她 将 亲自 检验 本 程序 是 否 有 意义 

(领域 知识 验证 )。 然 而 ， 组 合 树 模型 对 她 来 说 是 黑箱 模型 ， 提 案 中 完全 没 提 到 该 如 何 

让 她 理解 该 过 程 辅助 决策 的 原理 。 根 据 她 的 需求 ， 我 们 需要 牺 竹 一 些 精度 ， 构 建 一 个 

更 易于 理解 的 模型 。 一 旦 她 “上 了 道 *， 我 们 就 能 用 易 理 解 性 较 差 但 精度 更 高 的 模型 

了 。( 见 第 3 章 、 第 7 章 、 第 12 章 ) 
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术语 表 


注 : 本 术语 表 是 对 Ron Kohavi 和 Foster Provost (1998) 编纂 的 术语 库 的 扩展 ， 其 使 用 
得 到 了 Springer Science and Business Media 的 许可 。 


iid. 样本 

独立 同 分 布 样本 ， 一 组 相互 独立 且 服 从 同一 分 布 的 实例 。 

KDD 
最 初 为 “Knowledge Discovery from Databases”( 基 于 数据 库 的 知识 发 现 ) 的 缩写 。 如 今 
广义 上 指 “ 从 数据 中 发 现 知识 ”， 并 常常 被 当 作 “数据 挖掘 ”的 同义词 。 

OLAP (MOLAP, ROLAP) 


联机 分 析 技 术 ， 通 常 与 MOLAP (多 维 OLAP) 同 义 。OLAP 引擎 能 促进 多 个 (预先 确 
定 的 ) 维度 上 的 数据 探索 。OLAP 通常 使 用 中 间 数 据 结构 来 存储 预先 计算 的 多 维 数据 结 
果 ， 从 而 提升 计算 效率 。ROLAP (关系 OLAP) 指 用 关系 数据 库 执 行 OLAP。 


成 本 〈 效 用 / 损失 / 回报 ) 


当 实 际 标签 为 时， 预测 标签 为 了 这 一 任务 的 成 本 (和 /或 收益 ) 的 度量 指标 。 用 准确 
率 来 评估 模型 时 ， 需 要 假设 错误 的 成 本 一 致 ， 而 且 分 类 正确 的 收益 也 一 致 。 


错误 率 
参见 准确 率 (错误 率 )。 
分 类 器 


从 未 标注 实例 到 (离散) 类 的 映射 。 分 类 器 包括 一 种 形式 (如 分 类 树 ) 和 一 个 解释 程序 
(包括 如 何 处 理 未 知 值 等 )。 大 部 分 分 类 器 也 能 提供 概率 估计 (或 其 他 似 然 度 评分 )。 可 
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覆盖 范围 
分 类 器 预测 时 所 用 的 数据 集 的 比例 。 如 有 果 分 类 器 没有 对 所 有 实例 进行 分 类 ， 那 么 就 需要 
知道 它 在 有 足够 把 握 做 出 预测 的 实例 集 上 的 性 能 。 

关联 挖掘 


一 种 挖掘 技术 ， 用 于 找到 满足 给 定 条 件 且 形 如 “Xx AY > A AB” (RK) WKAR 
规则 。 


归纳 
通过 一 组 数据 构建 一 般 模 型 (如 分 类 树 或 方程 》 的 过 程 。 归 纳 与 演绎 相对 :演绎 根据 一 
个 一 般 规律 或 模型 ， 以 及 一 个 或 多 个 事实 ， 来 创造 其 他 具体 事实 ， 而 归纳 从 另 一 个 方向 
入 手 ， 根 据 一 系列 事实 创造 一 般 规律 或 模型 。 在 本 书 中 ， 模 型 归纳 与 学 习 模型 和 挖掘 模 
型 同 义 ， 而 且 这 些 规律 和 模型 通常 都 是 统计 性 质 的 。 

混淆 矩阵 
一 个 列 出 预测 分 类 和 实际 分 类 的 矩阵 。 混 清和 矩阵 的 大 小 是 ! x 1， 其 中 为 不 同 标签 值 
的 个 数 。 多 种 分 类 器 评估 指标 的 定义 均 以 混 清 矩 阵 的 内 容 为 基础 ， 包 括 准确 率 、 真 阳性 
比率 、 假 阳性 比率 、 真 阴性 比率 、 假 阴性 比率 、 精 确 度 、 召 回 率 、 敏 感度 、 特 异性 、 阳 
性 预测 值 和 阴性 预测 值 。 

机 器 学 习 
数据 科学 中 ， 机 器 学 习 通常 表示 归纳 算法 在 数据 上 的 应 用 ， 往 往 与 数据 挖 气流 程 中 的 建 
模 阶段 同 义 混用 。 机 器 学 习 是 科学 研究 的 一 个 领域 ， 关 注 归纳 算法 和 其 他 可 用 于 学 习 的 
算法 。 

记录 
参见 特征 向 量 (记录 ,元 组 )。 

交叉 验证 
通过 将 数据 分 为 个 大 小 大 致 相同 的 互 斥 子 集 (“ 折 又 ”) 来 估计 归纳 器 的 准确 率 (或 误 
差 ) 的 方法 。 归 纳 器 要 经 过 上 次 训练 和 测试 ， 每 次 的 训练 集 为 一 1 个 子 集 ， 而 测试 信 
为 剩余 的 那个 子 集 。 交 又 验证 的 准确 率 估计 为 个 折 秋 的 准确 率 取 平均 ， 或 组 合 ( 合 
并 ) 后 的 测试 折 双 的 准确 率 。 

类 (标签) 
一 个 小 型 互 斥 标签 集合 ， 在 分 类 问题 中 被 用 作 目 标 变量 的 可 能 取 值 。 标 签 数据 中 的 每 个 
数据 项 都 有 一 个 类 标签 ， 比 如 ， 美 元 钞票 分 类 问题 中 的 类 分 为 走 钞 和 假 钞 。 股 票 评估 问 
题 中 的 类 分 为 飙升 、 暴 跌 和 不 变 。 

敏感 度 


真 阳 性 比率 ( 见 混 淆 矩阵 )。 




















































































































模式 
对 数据 集 属性 及 其 性 质 的 描述 。 
模型 


能 以 描述 或 预测 为 目的 ， 对 一 组 数据 进行 概括 或 部 分 概括 的 结构 和 相应 的 解释 。 绝 大 多 
数 归纳 算法 产生 的 模型 能 用 作 分 类 器 、 回 归 器 、 人 类 消费 模式 或 下 一 步 数 据 挖 气 流程 的 
输入 。 
模型 部 署 
使 用 学 习 后 的 模型 解决 实际 问题 的 过 程 。 部 署 通常 与 数据 挖掘 流程 的 评估 阶段 中 “使 
用 ”模型 相对 ， 后 者 中 的 部 署 通常 是 在 答案 已 知 的 数据 上 模拟 的 。 
缺失 值 
某 属 性 的 值 未 知 或 不 存在 的 情形 。 值 缺失 的 可 能 原因 有 很 多 ， 比 如 : 没有 测量 值 、 仪 器 
出 现 故 障 、 属 性 不 适用 ， 或 属性 值 无 法 得 知 。 有 些 算 法 无 法 处 理 缺 失 值 。 
实例 〈 示 例 ， 案 例 ， 记 录 ) 
用 于 模型 学 习 或 模型 使 用 (如 预测 ) 的 一 个 对 象 。 在 绝 大 多 数 数据 科学 工作 中 ， 实 例 由 
特征 向 量 描述 ， 有 的 数据 科学 工作 则 使 用 更 复杂 的 表示 方法 (如 包含 实例 间或 实例 的 各 
部 分 之 间 的 关系 ) 。 
示例 
参见 实例 (示例 ， 记 录 )。 
Bt Gh, $=, iE) 
描述 一 个 实例 的 量 。 属 性 有 一 个 由 属性 类 型 定义 的 域 ， 而 属性 类 型 表示 该 属性 可 能 的 取 
值 。 常 见 的 域 有 以 下 几 种 类 型 。 
。 类 别 (符号) 型 域 
可 取 有 限 个 离散 值 。 甚 中标 称 型 域 指 变量 值 没有 顺序 ， 比 如 姓氏 和 颜色 。 而 序数 型 
域 则 指 变量 值 之 间 存 在 顺序 ， 比 如 取 值 为 “ 低 、 中 、 高 ”的 属性 。 
连续 (数值 型 域 
通常 为 实数 集 的 子 集 。 不 同 的 可 能 取 值 之 间 的 差异 可 以 被 度量 。 实 际 问题 中 ， 整 数 
经 常 被 视 为 连续 型 变量 。 
虽然 本 书 中 不 会 区 分 ， 但 “特征 ”通常 指 的 是 属性 的 规范 及 其 值 。 比 如 ， 颜 色 是 一 
种 属性 ,“ 颜 色 是 蓝 色 ” 则 是 特征 。 许 多 对 属性 集 的 转化 没有 改变 特征 集 (比如 ， 重 
组 属性 值 或 把 多 值 型 属性 转化 为 二 值 型 属性 )。 本 书 与 许多 作者 和 从 业者 保持 一 致 ， 
把 特征 当 作 属性 的 同义词 。 
数据 集 
一 个 模式 和 符合 该 模式 的 一 系列 实例 。 一 般 认 为 ， 这 些 实例 不 必 是 有 序 的 。 绝 大 多 数 数 
据 挖 掘 工 作 使 用 一 个 固定 格式 的 表格 ， 或 一 组 特征 向 量 。 
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数据 清洗 / 清理 
通过 调整 数据 的 形式 或 内 容 来 提高 数据 质量 的 过 程 ， 比 如 删除 或 修正 不 正确 的 数据 值 。 
这 一 步骤 通常 在 建 模 步骤 之 前 ， 但 经 过 整个 数据 挖掘 过 程 后 ， 可 能 会 发 现 需要 进一步 的 
数据 清洗 ， 也 可 能 会 发 现 提升 数据 质量 的 方法 。 

数据 挖掘 


该 术语 含义 丰富 ， 有 时 指 整 个 数据 挖掘 过 程 ， 有 时 指 对 数据 应 用 具体 的 建 模 技术 ， 以 便 
构建 模型 或 寻找 其 他 模式 / 规律 。 


损失 

参见 成 本 (效用 /损失 /回报 )。 
特征 

参见 属性 〈 域 ， 变 量 ， 特 征 )。 
特征 向 量 〈 记 录 ， 元 组 ) 

描述 一 个 实例 的 一 列 特 征 。 
特异 性 
真 阴 性 比率 ( 见 混淆 矩阵 )。 
维度 


一 个 或 多 个 共同 描述 某 性 质 的 属性 。 比 如 ， 一 个 地 理 维度 可 能 包含 3 个 属 
州 、 城 市 而 一 个 时 间 维度 可 能 包含 5 个 属性 ; 年 、 月 、 上 日、 时、 分 。 

无 监督 学 习 

在 没有 预先 指定 目标 属性 的 前 提 下 ， 对 实例 进行 分 组 的 学 习 技 术 。 聚 类 算法 通常 是 无 监 
督 的 。 

先 验 
先 验 是 从 哲学 中 借用 的 术语 ， 意 指 “ 先 于 经 验 "。 在 数据 科学 中 ， 先 验 信念 是 问题 中 作 
为 背景 知识 的 信念 。 与 之 相对 的 是 在 检验 数据 之 后 形成 的 信念 。 你 可 以 说 “没有 先 验 理 
由 让 我 们 相信 该 关 系 是 线性 的 *。 在 检验 数据 后 ， 你 认为 两 个 变量 之 间 是 线性 关系 ( 因 
而 线性 回归 非常 适用 ) ， 但 根据 先 验 知识 ， 你 没有 理由 相信 它们 之 间 是 线性 关系 。 先 验 
的 反义词 是 后 验 。 

效用 
参见 成 本 (效用 / 损失 /回报 )。 

有 监督 学 习 


学 习 独立 属性 和 指定 的 依赖 属性 ORE) 之 间 关 系 的 方法 。 绝 大 多 数 归纳 算法 属于 有 监 
督学 习 方法 。 
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元 组 
参见 特征 向 量 (记录 ， 元 组 )。 

知识 发 现 
辨别 数据 中 有 效 、 新 颖 、 可 能 有 用 且 最 终 可 理解 的 模式 的 重要 过 程 。 以 上 定义 出 自 
Fayyad Piatetsky-Shapiro, & Smyth (1996) 的 “知识 发 现 和 数据 挖掘 的 进展 ”(Advances 
in Knowledge Discovery and Data Mining) 。 

















域 
参见 属性 。 

准确 率 GRE) 
模型 在 数据 集中 预测 正确 (或 错误 ) 的 比率 。 准 确 率 通常 基 于 未 在 任何 阶段 参与 学 习 过 
程 的 独立 〈 保 留 ) 数据 集 进行 估计 。 更 复杂 的 准确 率 估计 技术 ， 如 交叉 验证 和 自助 法 ， 
也 非常 常用 ， 对 数据 量 较 少 的 数据 集 而 言 尤 其 如 此 。 
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